Pythonを使っているとDataFrame(データフレーム)という単語をよく耳にします。
普段Pythonを触っていないため聞き慣れない言葉でした。
今回はPythonでよく使われるデータフレームの意味とその使い方について紹介します。
DataFrame(データフレーム)とは?
DataFrameとは2次元構造を持つデータのことで、主に縦(カラム)と横(レコード)で表現されます。Excelやスプレッドシートのような表(テーブル)と思ってよいでしょう。
ここにある日のベンチプレスの記録を用意しました。
いまはスプレッドシートで作成していますが、Pythonを使って同じようなデータフレームを作ってみましょう。
DataFrameクラスの使い方
DataFrameクラスはこのように使います。
それぞれの引数には配列を入れてあげましょう。
pd.DataFrame([テーブルに入れるデータ], [インデックス番号], [カラム名])
data は入力必須ですが、indexとcolumnsはなくてもデータフレームは作成されます。
indexとcolumnを指定しない場合
今回は5行2列のデータフレームを作成するためdataは2次元配列で入れました。
分かりやすくするためdata =
としていますが、必ずしも指定する必要はありません。
データは入れられましたがインデックス番号が0始まりで分かりづらいですね。
インデックス番号を1始まりにしてあげましょう。
indexを指定する
5レコード分インデックスを指定しました。
インデックスの数がレコード数よりも多いときはエラーになります。
カラム名がまだ0, 1ですね。
最後にカラム名をweightとcountに変えてあげましょう。
columnsを指定する
2カラム分指定しました。
左からweight(重さ), count(回数)が入っていますね。
最初の表とまったく同じデータフレームが作れました!
まとめ
今回はDataFrameクラスを使ってデータフレームを作成しました。
データフレームは一般的なテーブルと変わりませんね。
難しく考えすぎずカラムとレコードを持つテーブルを作成しているんだなという認識で良いでしょう。
テーブルを作成するときは2次元配列と配列を使いました。
それぞれよく使う構文なので忘れちゃった方は見直しておきましょう。