データの可視化

データの可視化

更新日: 2021-03-31

散布図 #

データの分布や相関関係を表示する。

pythonでは下記ようにプロットする。

1
2
3
4
5
6
7
import numpy as np
import matplotlib.pyplot as plt

x = np.random.rand(100)
y = np.random.rand(100)
 
plt.scatter(x, y)

scatter

ヒストグラム #

データの集合から横軸に値、縦軸に度数を取ったグラフ。データの分布を可視化するために使用する。横軸の幅を階級幅という。縦軸にデータ数をプロットすることが多いが二つの母集団を比較する場合には不適当。通常、二つのデータを比較するためには面積が同一になるように正規化する。

横軸の個数は少なすぎても多すぎても意味がない。分かりやすい数値にする必要がある。もし迷ったらスタージェスの公式を使うといい。データ数がNの場合、binsは下式で求まる。

$$ bins = 1 + log_2N $$

pythonによる作図例(平均50, 標準偏差10, データ数1000のデータをプロット)

1
2
3
4
5
6
import numpy as np
import matplotlib.pyplot as plt

x = np.random.normal(50, 10, 1000)
 
plt.hist(x)

hist_1

階級幅を変更

1
plt.hist(x, bins=16)

hist_2

面積の合計が1になるように正規化

1
plt.hist(x, bins=16, density=True)

hist_3

comments powered by Disqus