散布図 #
データの分布や相関関係を表示する。
pythonでは下記ようにプロットする。
|
|
ヒストグラム #
データの集合から横軸に値、縦軸に度数を取ったグラフ。データの分布を可視化するために使用する。横軸の幅を階級幅という。縦軸にデータ数をプロットすることが多いが二つの母集団を比較する場合には不適当。通常、二つのデータを比較するためには面積が同一になるように正規化する。
横軸の個数は少なすぎても多すぎても意味がない。分かりやすい数値にする必要がある。もし迷ったらスタージェスの公式を使うといい。データ数がNの場合、binsは下式で求まる。
$$ bins = 1 + log_2N $$
pythonによる作図例(平均50, 標準偏差10, データ数1000のデータをプロット)
|
|
階級幅を変更
|
|
面積の合計が1になるように正規化
|
|