【Python】DataFrame(データフレーム)とは?DataFrameクラスの使い方について紹介

20230813_Python プログラミング言語

Pythonを使っているとDataFrame(データフレーム)という単語をよく耳にします。
普段Pythonを触っていないため聞き慣れない言葉でした。

今回はPythonでよく使われるデータフレームの意味とその使い方について紹介します。

DataFrame(データフレーム)とは?

DataFrameとは2次元構造を持つデータのことで、主に縦(カラム)と横(レコード)で表現されます。Excelやスプレッドシートのような表(テーブル)と思ってよいでしょう。

ここにある日のベンチプレスの記録を用意しました。
いまはスプレッドシートで作成していますが、Pythonを使って同じようなデータフレームを作ってみましょう。

クリックして拡大できます

DataFrameクラスの使い方

DataFrameクラスはこのように使います。
それぞれの引数には配列を入れてあげましょう。

pd.DataFrame([テーブルに入れるデータ], [インデックス番号], [カラム名])

data は入力必須ですが、indexとcolumnsはなくてもデータフレームは作成されます。

indexとcolumnを指定しない場合

今回は5行2列のデータフレームを作成するためdataは2次元配列で入れました。
分かりやすくするためdata =としていますが、必ずしも指定する必要はありません。

クリックして拡大できます

データは入れられましたがインデックス番号が0始まりで分かりづらいですね。
インデックス番号を1始まりにしてあげましょう。

indexを指定する

5レコード分インデックスを指定しました。
インデックスの数がレコード数よりも多いときはエラーになります。

クリックして拡大できます

カラム名がまだ0, 1ですね。
最後にカラム名をweightとcountに変えてあげましょう。

columnsを指定する

2カラム分指定しました。
左からweight(重さ), count(回数)が入っていますね。

クリックして拡大できます

最初の表とまったく同じデータフレームが作れました!

まとめ

今回はDataFrameクラスを使ってデータフレームを作成しました。
データフレームは一般的なテーブルと変わりませんね。

難しく考えすぎずカラムとレコードを持つテーブルを作成しているんだなという認識で良いでしょう。

テーブルを作成するときは2次元配列と配列を使いました。
それぞれよく使う構文なので忘れちゃった方は見直しておきましょう。