仮面行員のデータサイエンティスト入門【番外編:画像処理入門】

今回はデータ分析とは少し変わってPythonでの画像処理のお勉強。

というのも、先日Pyconjpの画像処理チュートリアルに参加して勉強してきた。

 

今回とてもよかったと思ったのは3点。

 

①画像処理のモジュール「Pillow」を知ったことと

②「os」モジュールを知ったこと

③defの使い方に慣れたこと

 

「Pillow」は画像をいろいろといじれる面白いモジュール。

画像を指定したサイズに縮小したり、回転させたり、使いこなせれば色々とできることが広がりそう。

別の機械学習系の勉強をした際に見たところだと、画像認識の機械学習でもPillowは使えるっぽい。

 

「os」はディレクトリ内にファイルが存在するかや、ディレクトリ内のファイルを一覧にする、パスを結合する等、超地味なモジュール乍ら、何気に必要なモジュールと感じた。これから使っていこう。

 

あと、チュートリアルでいろいろとdefをいじったおかげでようやくdefに慣れてきた。

Railsの勉強しかしたことがなかったからか、

 

def sample(a,b):

  a, b = test

  ・・・

 

みたいな書き方にとても慣れなかった(これでa, bに代入できるの?testの型はなんでもいいの?とか)のだけど、

そこらへんはPythonがよしなにしてくれるらしい笑、ということで割り切れて慣れてきた。

Kaggleも一個試しにやってみたし、プログラミングも少しできる気がしてきたし、ようやく見習いデータ分析者として一歩を踏み出せた気がする今日この頃。

 

今日はここまで

仮面行員のデータサイエンティスト入門【Kaggle入門】

少しブログが開いてしまったが、データサイエンスの勉強は継続中。

学習の記録なのでこちらのブログも継続。

 

最近読んだのは、「データサイエンティスト養成読本」。

以前に参加した勉強会でオライリーがいいよ、と言われたので「Pythonによるデータ分析入門」「IPythonデータサイエンスクックブック」を買った。(未読)

また、最近でた機械学習の本がよかったとも言われ購入を検討中。。。

あぁ、courseraの機械学習も見たいんだった、などと勉強したいものはたくさんあるけど追いつかない。

 

ただ、知識をつけてばかりではダメだと思うのでこれからKaggleに挑戦すべく下調べを実施。サイトを見たことはあるもののどこから手を付けてよいのやら、と思ったら以下のサイトを発見。

 

Kaggle事始め - Qiita

 

Titanicは確かに題材でよく見るし、リンク先に従って進めればとりあえずできてしまうけど、それでは本を読んだのと変わらないのでグラフは色々試してみようと思う。

 

Kaggle等に挑戦して見つかった課題も今後は載せていこうと思う。

仮面行員のデータサイエンティスト入門【グラフ解決】

 

前回のグラフが解決したので記録。

 

【修正前】

 以下を折れ線グラフにすると思ったようにプロットされなかった。

f:id:m_b_k_r:20160809231400j:plain f:id:m_b_k_r:20160809231552j:plain

 

理由はどうやら’date’が数値とされているからのようで、

文字と認識されるように修正したら普通にでた。

 

今回はインデックスをいじったけど、単純にデータ型を

変えるだけってのもできそうな気が。。。

なんとかデータフレームの結合もうまくできてきたので

これからはfor in構文とかで効率的にやりたいところ。

 

【修正後】

f:id:m_b_k_r:20160809231753j:plain f:id:m_b_k_r:20160809232420j:plain 

仮面行員のデータサイエンティスト入門【データ成形~グラフ作成編】

備忘録といいながら手が止まってしまった。

 

ただいま、Kaggleのようなコンテストのデータを使ってグラフの作成や

モデルの作成を勉強中。

 

、、、なのだが、なかなか思ったようにグラフが作れない。。。

折れ線グラフですら思ったようにできないとは、やはり教材を

見ただけではなかなか難しいようで。

 

グラフにしやすいようにデータを作り直す必要があるのかな、

それともデータをよく見てグラフの記述を作った方がいいのかな、

 

時間はかかりそうだけどいろいろ試すしかないね。

あまりにも無理だったら誰かに聞いてみよう。。。

 

調べ方も分からないよちよちの1歳時レベルかな。

はやく成人したい。

 

今日はここまで

仮面行員のデータサイエンティスト入門【勉強会参加編】

pythonの勉強をしていて聞くのが、「勉強会に出て知り合い増やした方がいいよ。今はpythonの勉強会もいろいろあるし。」ということ。


確かに、一通り勉強したものの(この2週間で機械学習の基礎まで勉強)、結局は大学までに勉強した重回帰分析等を学習用データを使ってモデル化、あとはデータを増やすなりして精度をあげるといったもので、で?これからどうする??といったもので迷走しかけていたのも事実で勉強会に出てみた。


今回は入門編ということで構文とかを勉強。データ分析よりはpythonでいかにサービスを開発するかというものでこれはこれで新鮮。汎用性高いっぽいのでこれも引き続き勉強してみようかな。


入門編の延長でLT(ライトニングトーク)やる会も考えてるのでゼヒ、とのこと。ライトニングトークは聞いたことあるもののどういう発表するのかな。。。


プログラミング業界は発信しないと伸びていかない(誰もやり方を教えてくれない)ようなのでやった方がいいみたいだけど。


あとは、Kaggleというサイトでデータ分析のコンテストをやっているようなので試してみようと思う。


まだまだpythonは奥深いなぁ、と思った一日。


仮面行員のデータサイエンティスト入門【pandas~グラフの可視化】

今回はpandasの続きからグラフを可視化するところまで。

ようやく何ができるのかが見えてきたような気がする。

 

それぞれのコマンドは使いながら覚えるとして、

データのマージがやや難解。

方法がいろいろあるが、それぞれがどのように結合されるかを

理解してないとデータの欠損とか重複とかが起こりそう。

欠損がないか不安に思いながらの解析では意味がないし。。。

あと、groupbyもどういう指示でどうなるか感覚として掴めてない。

自分でPythonいじって覚えていくしかないんだろうけど。

 

グラフの可視化では、Pythonの本領を少し垣間見た。

というのも、重回帰分析とかクラスター分析があっさり

計算されるのに感動。

これあったら別に大学の卒論でSPSSとか使う必要なかったやん。。。

今はPythonとかで卒論書いてるのかな、と思ったり。

ようやく統計が登場したのでぼちぼち勉強し直さないと。

カーネル密度推定ってあったなぁ、というぐらい脳に蜘蛛の巣はってる。

 

完全備忘録と化していて人に見せるもんではないですね。。。

Pythonいじる用になにしたいか考えよう。

個人的な趣味では株価とか不動産回りとかやりたいな。

どっちもデータはありそうだけどやりつくされてそう。

あとは、趣味なんだからすごいくだらない分析したいな。

 

今日はここまで

仮面行員のデータサイエンティスト入門【pandas編】

今日はpandasというものをお勉強。

まだnumpyとpandasの使い方の違いがわかっていない。

 

そもそも、arrayとSeriesはおなじものを表している気がするが今後どのように使い分けをするのだろう。indexの有無が違うかな、というのが今の印象。

 

numpyとpandasの違いは調べた感じだと、

numpyが行列やベクトルを計算するもの

pandasがSeriesやDataFrameを扱うためのもの

ということであったがこれで正しいのだろうか。。。

 

今日やっていた中で感動したのは、ネットのコピペでDataFrameがそのまま作れたこと(もちろんコピーする表がちゃんとしてないとうまくいかないっぽいけど)。

ヤフーの株価データをそのまま持ってこれたのは感動。これは確かに時間短縮になる。

 

あとは、そのデータを元に相関係数がサクッと出せたこと。もちろん、まだExcelでできることの域を超えてないけど、少しpythonの凄さを感じた。

 

もうちょっと勉強進めたかったけど今週はこれでおしまい。