DataFrame¶

Seriesが一列だとすれば、DataFrameは複数の列を持つデータ構造をしています。
イメージとして、Excelのようなデータ構造をndarrayで保持しているというのが近いと思います。
一つ一つの要素を書き換えるような手動の処理はExcelの方が素早く出来ますが、一括計算をしたいときはDataFrameの方が遥かに素早く計算できます。

import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

# 辞書型を引数にとり、DataFrameオブジェクトを返す。
df = pd.DataFrame(
    {
        "A": [1, 2, 3, -1],
        "B": ["apple", "orange", "banana", "apple"],
        "C": [False, True, True, True],
    }, index=list("abcd"))
df

# DataFrameに含まれるSeriesのnameはcolumnsで参照できる
df.columns

Index(['A', 'B', 'C'], dtype='object')

# columnsをキーワード引数で与える場合、インデックスごとのデータのリストを渡す
df = pd.DataFrame(
    [
        [1, "apple", False],
        [2, "orange", True],
        [3, "banana", True],
        [-1, "apple", True],
    ], columns=["A", "B", "C"])
df

# 各軸のdtypeを確認（NumPyのndarrayを保持している！）
df.dtypes

A     int64
B    object
C      bool
dtype: object

# Seriesは属性のように呼び出せる
df.B # または df["B"]

0     apple
1    orange
2    banana
3     apple
Name: B, dtype: object

# 複数の列を抜き出したDataFrameを作る
df[["A", "C"]]

# Series 'C'の値がTrueのものだけをDataFrameとして抜き出す
df[df.C]

# Bがappleのものだけを抜き出す
df[df.B == "apple"]

# Bがappleかつ、CがTrueのものだけを抜き出す
df[(df.B == "apple") & df.C]

# DataFrameへのSeriesの追加はこのようにする
df["D_new"] = df.A ** 2
df

# メソッドを呼ぶと列ごとに値を計算する
df.sum()

A                             5
B        appleorangebananaapple
C                             3
D_new                        15
dtype: object

# DataFrameの統計量をまとめて出す
df = pd.DataFrame({"rand": (np.random.rand(1000) - 0.5).cumsum(),
                "randn": np.random.randn(1000).cumsum()})
df.describe()

# DataFrameのプロット：何も指定しないと各Seriesを重ねてプロットする
df.plot()
plt.show()

# ヒストグラムなどはkindで指定する。 「df.plot?」を見ると詳細あり。
df.plot(kind="hist", bins=50)

<AxesSubplot:ylabel='Frequency'>

	rand	randn
count	1000.000000	1000.000000
mean	4.492801	3.731727
std	1.764634	8.823353
min	0.124222	-12.485269
25%	3.100176	-2.949801
50%	4.375967	1.950034
75%	5.490060	9.909272
max	9.052806	24.105080

トップページに戻る

Pandas―データ分析（２）DataFrame

DataFrame¶

基礎編

応用編

トップページに戻る

	A	B	C
a	1	apple	False
b	2	orange	True
c	3	banana	True
d	-1	apple	True

	A	B	C
0	1	apple	False
1	2	orange	True
2	3	banana	True
3	-1	apple	True

	A	C
0	1	False
1	2	True
2	3	True
3	-1	True

	A	B	C
1	2	orange	True
2	3	banana	True
3	-1	apple	True