m_b_k_rの日記

仮面行員のデータサイエンティスト入門【pandas～グラフの可視化】

データサイエンス

今回はpandasの続きからグラフを可視化するところまで。

ようやく何ができるのかが見えてきたような気がする。

それぞれのコマンドは使いながら覚えるとして、

データのマージがやや難解。

方法がいろいろあるが、それぞれがどのように結合されるかを

理解してないとデータの欠損とか重複とかが起こりそう。

欠損がないか不安に思いながらの解析では意味がないし。。。

あと、groupbyもどういう指示でどうなるか感覚として掴めてない。

自分でPythonいじって覚えていくしかないんだろうけど。

グラフの可視化では、Pythonの本領を少し垣間見た。

というのも、重回帰分析とかクラスター分析があっさり

計算されるのに感動。

これあったら別に大学の卒論でSPSSとか使う必要なかったやん。。。

今はPythonとかで卒論書いてるのかな、と思ったり。

ようやく統計が登場したのでぼちぼち勉強し直さないと。

カーネル密度推定ってあったなぁ、というぐらい脳に蜘蛛の巣はってる。

完全備忘録と化していて人に見せるもんではないですね。。。

Pythonいじる用になにしたいか考えよう。

個人的な趣味では株価とか不動産回りとかやりたいな。

どっちもデータはありそうだけどやりつくされてそう。

あとは、趣味なんだからすごいくだらない分析したいな。

今日はここまで