【第１６回ファイルの読み込み】元文系京大生による超初心者向けPython入門講座Beginaid

本記事は，python入門講座シリーズの内容になります。その他の記事は，こちらの「Python入門講座/実践講座まとめ」をご覧ください。ターゲットは主にpythonを使ったことがない人向けで，簡潔で分かりやすい説明を心がけています。

内容に誤りがありましたら，ご指摘いただけますと非常に助かります。

読みたい場所へジャンプ！

今回のお題
ファイルを作ろう！
結論
解説

今回のお題

数値データの入ったテキストファイルを読み込んでみよう！

ファイルを作ろう！

まず，下準備として２つのテキストファイルを作ります。メモ帳などを使ってOKです。それぞれ「test1.txt」「test2.txt」という名前を付けて，適当な場所に保存しましょう。

test1.txt

1 2 3 4
5 6 7 8

test2.txt

目標は，これらのファイルから数値を「整数型」としてリストに取り入れることです。これが，意外と厄介なので，ゆっくりと確認していきます。

結論

path1 = "test1.txt"
path2 = "test2.txt"
delimiter = " "

#テキストファイル(.txt)の行を数値として読み込む方法
num_row = 2
n_iter = 0
with open(path1) as f1:
    data1 = [[0] for i in range(num_row)]
    for l in f1.readlines():
        data_row = [int(i) for i in l.strip().split(delimiter)]
        data1[n_iter] = data_row
        n_iter += 1
    x1 = data1[0]
    y1 = data1[1]

#テキストファイル(.txt)の列を数値として読み込む方法
with open(path2) as f2:
    x2, y2 = [], []    
    for l in f2.readlines():
        data2 = l.strip().split(delimiter)
        x2 += [int(data2[0])]
        y2 += [int(data2[1])]
        data2 = [x2, y2]

なんじゃコレー！！

となりますよね。ダイジョブです。１つずつ確認していきましょう。

解説

順を追って説明していきます。

colaboratoryにテキストファイルをアップロード

from google.colab import files
uploaded = files.upload()

こちらのコードを打ち込んで，先ほどのテキストファイル（”test1.txt”，”test2.txt”）の２つをアップロードしてください。

よく使う変数の設定

path1 = "test1.txt" #ファイル名
path2 = "test2.txt" #ファイル名
x1, y1 = [], [] #"test1.txt"の行
x2, y2 = [], [] #"test2.txt"の列
delimiter = " " #区切り文字の設定

pathというのは，ファイルが保存してある場所のことを指すのですが，今回はコードを記述している場所と同じところにテキストファイルをアップロードしたので，単なるファイル名でOKです。各ファイルのデータをしまっておくためのx, yも設定しておきます。

また，テキストファイルの区切り文字は半角スペースなので「” “」を設定しています。もし，テキストファイルの数値がタブで区切られている場合には「delimiter=”\t”」を利用してください。

基本的なファイル読み込みの流れ

f1 = open(path1)
data1 = f1.read()
print(data1)
f1.close()

pythonの組み込み関数でファイルを読み込む場合には，open関数を利用します。open関数はファイルオブジェクト（ファイルの操作ができる”モノ”）を返すので，f1という変数に代入します。これで，f1が“test1.txt”の内容を操作できる便利屋さんとして機能するようになりました。そこで，便利屋さんに「read()」という命令を与えます。これは，文字列をそのまま文字列として読み込む命令ですので，data1はtest1.txtに書かれている内容をそのまま表示します。

1 2 3 4
5 6 7 8

一点だけ補足なのですが，openしたオブジェクトをそのままにしておくと，pythonではファイルオブジェクトが開ける数が限られているため，エラーを起こしてしまう場合があります。そこで，ファイルオブジェクトにcloseしなくてはならない点に注意が必要です。

closeなんて絶対忘れちゃうよ！

なんて方は，以下のwith構文を利用してください。with構文は「open()→close()」の流れ定められている設計図に使うことができる構文で，closeを省略できる優れものです。

with open(path1) as f1:
  data1 = f1.read()
  print(data1)

1 2 3 4
5 6 7 8

お疲れさまでした，これで終了です！……としたいところなのですが，コチラのdata1，実は文字列型なんです。

type(data1)

str

これでは，テキストファイルに書かれている数値を「整数型」として扱うことができません。具体的には，数値演算ができないのです。そこで，以下ではこちらの文字列を「１つ１つ分解して」「整数型に変換する」操作を解説していきます。

行ごとに分解

with open(path1) as f1:
  data1 = f1.readlines()
  print(data1)

['1 2 3 4\n', '5 6 7 8']

便利屋さんに「readlines()」と命令すれば，先ほどの文字列型のデータを「行ごとに」「リストとして」読み込みます。

環境によってはバックスラッシュ「\n」が「¥n」のように円マークであったりしますが，コード上はどちらも同じ意味です。

もう！「\n」ってなに？？

「\n」は改行を表しています。テキストファイルを作った際も，4の後に改行をしませんでしたか？実際のテキストファイルも4の改行されていますので，パソコンは正直にテキストファイルの内容を出力してるのです。そこで，余分な「\n」を消去するために，リストの各要素（文字列）に対して「strip()」という命令をかけます。

with open(path1) as f1:
  data1 = f1.readlines()
  for l in range(len(data1)):
    data1[l] = data1[l].strip()
  print(data1)

['1 2 3 4', '5 6 7 8']

こうすることで，余分な「\n」が消えました。

要素を数字ごとに分解

今度は，要素を数字ごとに分解します。ここで，ようやく「delimiter」が登場します。文字列型の要素に「split()」という命令を与えることで，その文字列を「delimiter」ごとに分解してくれます。今回のテキストファイルは半角スペースで区切られていますので，半角スペースごとに要素を区切った文字列が出力されます。

with open(path1) as f1:
  data1 = f1.readlines()
  for l in range(len(data1)):
    data1[l] = data1[l].strip().split(delimiter)
  print(data1)

[['1', '2', '3', '4'], ['5', '6', '7', '8']]

整数値に変換

最後に，各要素を整数型に変換してx1, y1にしまっておきます。

with open(path1) as f1:
  data1 = f1.readlines()
  for l in range(len(data1)):
    data1[l] = data1[l].strip().split(delimiter)
  for m in range(len(data1[0])):
      x1 += [int(data1[0][m])]
  for n in range(len(data1[0])):
      y1 += [int(data1[1][n])]
print(x1, y1)

[1, 2, 3, 4] [5, 6, 7, 8]

これにて，テキストファイルの数値をリストとして読み込むことができました！

もう少し簡単な方法

num_row = 2
n_iter = 0

with open(path1) as f1:
    data1 = [[0] for i in range(num_row)]
    for l in f1.readlines():
        data_row = [int(i) for i in l.strip().split(delimiter)]
        data1[n_iter] = data_row
        n_iter += 1
    x1 = data1[0]
    y1 = data1[1]
print(x1)
print(y1)
print(data1)

f1という便利屋に「readlines()」という命令を与えたものを繰り返し構造（iterable）として利用します。何かしらの区切り（改行など）ごとに繰り返しを行いますが，基本的には行の数だけ繰り返すと考えればOKです。

列を読み込む場合

ここまでは，テキストファイルの行を読み込んでいましたが，テキストファイルの列を読み込む場合には下のようにします。

with open(path2) as f2:
    x2, y2 = [], []    
    for l in f2.readlines():
        data2 = l.strip().split(delimiter)
        x2 += [int(data2[0])]
        y2 += [int(data2[1])]
        data2 = [x2, y2]
print(x2)
print(y2)
print(data2)

[1, 3, 5, 7]
[2, 4, 6, 8]
[[1, 3, 5, 7], [2, 4, 6, 8]]

本当にここで終了です！お疲れさまでした。

python

【第１６回ファイルの読み込み】元文系京大生による超初心者向けPython入門講座

今回のお題

ファイルを作ろう！

結論

解説

colaboratoryにテキストファイルをアップロード

よく使う変数の設定

基本的なファイル読み込みの流れ

行ごとに分解

要素を数字ごとに分解

整数値に変換

もう少し簡単な方法

列を読み込む場合

COMMENT コメントをキャンセル

【超初心者向け】これで十分。応用情報技術者試験に最短ルートで合格する勉強法と対策！

【要注意！】Macのアカウント/ユーザ名変更のやり方と間違えた場合の復元方法！

【超初心者向け】VAEの分かりやすい説明とPyTorchの実装

【超初心者向け】アドレス指定方式の種類！覚え方を図解で分かりやすく解説します！

【超初心者向け】これで十分。基本情報技術者試験に最短ルートで合格する勉強法と対策！

【超初心者向け】BCDとは？できるだけシンプルに説明します。

【超初心者向け】応用情報の午後問題のおすすめ度一覧。

【世界一分かりやすい解説】イラストでみるTransformer

【2020年版】TOEFL iBTのスコア・結果はいつ返却されるのか？

【超初心者向け】ガウス過程とは？出来る限り分かりやすく簡潔に説明します。

今回のお題

ファイルを作ろう！

結論

解説

colaboratoryにテキストファイルをアップロード

よく使う変数の設定

基本的なファイル読み込みの流れ

行ごとに分解

要素を数字ごとに分解

整数値に変換

もう少し簡単な方法

列を読み込む場合

【超初心者向け】PythonでWebスクレイピングをする方法をやさしく解説。

【第５章ニューラルネットワーク】PRML演習問題解答を全力で分かりやすく解説＜5.12＞

【第６章カーネル法】PRML演習問題解答を全力で分かりやすく解説＜6.22＞

【競プロ精進日記】c++習得編＜１５＞

【第２章確率分布】PRML演習問題解答を全力で分かりやすく解説＜2.35＞

【第７章】PRML演習問題解答を全力で分かりやすく解説＜7.11＞

COMMENT コメントをキャンセル

【超初心者向け】これで十分。応用情報技術者試験に最短ルートで合格する勉強法と対策！

【要注意！】Macのアカウント/ユーザ名変更のやり方と間違えた場合の復元方法！

【超初心者向け】VAEの分かりやすい説明とPyTorchの実装

【超初心者向け】アドレス指定方式の種類！覚え方を図解で分かりやすく解説します！

【超初心者向け】これで十分。基本情報技術者試験に最短ルートで合格する勉強法と対策！

【超初心者向け】BCDとは？できるだけシンプルに説明します。

【超初心者向け】応用情報の午後問題のおすすめ度一覧。

【世界一分かりやすい解説】イラストでみるTransformer

【2020年版】TOEFL iBTのスコア・結果はいつ返却されるのか？

【超初心者向け】ガウス過程とは？出来る限り分かりやすく簡潔に説明します。