「分離ー適用ー結合」の一例¶

国勢調査をもとにした人口推移のCSVを使います。
このデータの中には、都道府県別の人口推移があるので、pandasで解析してみましょう。
とりあえず

都道府県別の平均人口増加速度を一次近似で求め、そのランキングを作る

という目的でやってみましょう。
データは政府統計の総合窓口(e-Stat)からもらってきました(エンコードが SHIFT-JIS だったようなので、指定して読み込みます)。

手順としては、次のような感じで進めます。

CSV データを pandas の DataFrame で読み込む
簡単なデータ処理（数値データがないものを欠損値(NaN) に置き換える, 都道府県以外のデータを除外する)
人口増加速度を求める
グラフにプロットする

import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

# 日本語フォントを使いたいので、 font.family を変更する(OS などで異なるので注意)
plt.rcParams['font.family'] = "Hiragino Sans"

データ読み込み¶

# 最初の５行を出力
with open("c01.csv", "r", encoding="shift-jis") as fp:
    for line in fp.readlines()[:5]:
        print(line.strip())

"都道府県コード","都道府県名","元号","和暦（年）","西暦（年）","注","人口（総数）","人口（男）","人口（女）"
"00","全国","大正",9,1920,"",55963053,28044185,27918868
"01","北海道","大正",9,1920,"",2359183,1244322,1114861
"02","青森県","大正",9,1920,"",756454,381293,375161
"03","岩手県","大正",9,1920,"",845540,421069,424471

pandasだとcsvを一行で読み込むことが出来ます（エンコードは適当に探す）

# 一行でcsvファイルをDataFrameに変換できる
df = pd.read_csv("c01.csv", encoding="shift-jis", skipfooter=2, engine="python")
df = df.rename(columns={"人口（総数）": "全人口", "人口（男）": "男", "人口（女）": "女"})

# 最初の５行
df.head()

# 最後の５行
df.tail()

# dfのSeriesを確認
df.columns

Index(['都道府県コード', '都道府県名', '元号', '和暦（年）', '西暦（年）', '注', '全人口', '男', '女'], dtype='object')

# 各Seriesのdtypeの確認
df.dtypes

都道府県コード    object
都道府県名      object
元号         object
和暦（年）       int64
西暦（年）       int64
注          object
全人口        object
男          object
女          object
dtype: object

データ処理¶

# 人口を数値データに変換
for col in ["全人口", "男", "女"]:
    df[col] = pd.to_numeric(df[col], errors="coerce")

pd.to_numeric?をみると

Signature: pd.to_numeric(arg, errors='raise')

errors : {'ignore', 'raise', 'coerce'}, default 'raise'

If 'raise', then invalid parsing will raise an exception

If 'coerce', then invalid parsing will be set as NaN

If 'ignore', then invalid parsing will return the input

errors="coerce"とキーワード引数を与えてやれば、キャストできないものを欠損値として置き換えてくれるそうです。
デフォルトではエラーを吐き出すという設定になっていますね。

df.dtypes

都道府県コード     object
都道府県名       object
元号          object
和暦（年）        int64
西暦（年）        int64
注           object
全人口        float64
男          float64
女          float64
dtype: object

# 組み込み関数のset()と似た働き
df["都道府県名"].unique()

array(['全国', '北海道', '青森県', '岩手県', '宮城県', '秋田県', '山形県', '福島県', '茨城県',
       '栃木県', '群馬県', '埼玉県', '千葉県', '東京都', '神奈川県', '新潟県', '富山県', '石川県',
       '福井県', '山梨県', '長野県', '岐阜県', '静岡県', '愛知県', '三重県', '滋賀県', '京都府',
       '大阪府', '兵庫県', '奈良県', '和歌山県', '鳥取県', '島根県', '岡山県', '広島県', '山口県',
       '徳島県', '香川県', '愛媛県', '高知県', '福岡県', '佐賀県', '長崎県', '熊本県', '大分県',
       '宮崎県', '鹿児島県', '沖縄県', '人口集中地区', '人口集中地区以外の地区'], dtype=object)

都道府県別の時系列を見てみたいので、「全国」と最後の２つは取り除きましょう。
DataFrame.dropはindexが引数に一致している行を削除したDataFrameを返す関数です。

# 都道府県の行だけを抽出する
df = df[df["都道府県名"].isin(df["都道府県名"].unique()[1:-2])]

さて、解析のための準備が整いました。
都道府県名をkeyにしてgroupbyし、その勾配を求める自作関数を作れば良さそうです。
indexはこれから時系列として扱うので西暦に変更しておきます。

df.index = df['西暦（年）']

例：都道府県の人口推移¶

試しに各都道府県の人口推移をプロットしてみます。

df.groupby("都道府県名")["全人口"].plot(x="西暦")
plt.show()

人口増加速度を求める¶

さて、このDataFrameから人口増加速度を求める方法を考えましょう。
そのような方法はたくさんありますが今回は擬似逆行列を使って素早く求めましょう。
$$d=Gm$$ のとき$、G^\dagger$を擬似逆行列とすると $$m=G^\dagger d$$ となります。

# Seriesを受け取って、勾配を返す関数
def calc_slope(sr):
    
    # 欠損値を取り除く
    sr = sr.dropna()
    
    # x軸として年を取る
    x = sr.index.values
    
    # Green関数（直線なのでパラメータ２つ）
    G = np.vstack((x, np.ones_like(x))).T
    d = sr.values

    # 直線のパラメータ
    params = np.linalg.pinv(G) @ d
    
    # 勾配のみを返す
    return params[0]

increase_rate = df.groupby("都道府県名")[["全人口", "男", "女"]].agg(calc_slope)
increase_rate.head()

ようやく、都道府県ごと、ついでに性別別の人口増加速度が求まりました。

都道府県別人口増加速度をプロットする¶

fig, ax = plt.subplots(figsize=(6, 10), dpi=200)
increase_rate.sort_values("全人口").plot.barh(ax=ax)
plt.title("都道府県別平均人口増加速度（大正９年～平成27年）", fontsize=15)
plt.xlabel("平均人口増加速度（人／年）", fontsize=20)
plt.tight_layout()
plt.show()

完成です。
今回は都道府県別を調べましたが、データさえあれば、（コードをほとんど変えずに）市町村でもできることが分かってもらえると思います。
このようにpandasには汎用性の高い機能がたくさんあり、それらを組み合わせる技術が問われていくのだろうと思います。

もっとPandasを知りたい人へ¶

参考にしてほしい本として「Pythonによるデータ分析入門（O'REILLY）」があります。
これはPandasを作った人の本であり、（当然ながら）Pandasについてとても詳細に書かれています。
読んだら当然理解できるはずですが、読まなくてもPandasを使いながらググったり、ドキュメントを読んでいると自然と必要な機能は分かってくると思います。

	全人口	男	女
都道府県名
三重県	9100.340752	4410.786917	4689.553835
京都府	15529.986617	7108.792782	8421.193835
佐賀県	1806.813083	722.221805	1084.591278
兵庫県	39889.076992	18437.361504	21451.715489
北海道	36862.745263	15877.846165	20984.899098

トップページに戻る

Pandas―データ分析（５）応用：都道府県別人口推移