今回のエンジニアブログを担当する藤岡です。
宜しくお願い致します。
2015年10月半ば頃ローンチされた、Google Cloud Datalabを触ってみたいと思います。
このサービスはIPython Notebookが活用されており、コードをnotebook上に書き込み実行、可視化をすることが可能です。
ディレクトリ単位でのnotebookファイルの分割が可能なので、データの整理も非常にやりやすいように感じます。
今回は、BigQueryからデータを取り出し、Datalab上での可視化を行います。
1, 導入
お手軽です。
Getting Start
https://cloud.google.com/datalab/getting-started
Cloud Datalab Deployerでサインイン後、Deploy Datalabを押して暫く待つだけです。
Google App Engineへのデプロイを自動で行ってくれます。
また、デプロイ中にlog(下線部)を押すことでデプロイログを確認することも可能です。
これでGoogle Cloud Datalabのデプロイが完了しました。
Start DatalabでDatalabの画面に飛べるかと思います。
2, Notebookの作成、準備
上記 + メニューから、Notebookの追加、Folderの追加、NotebookのUploadが可能です。
今回は、notebook/datalab/bigquery_sample配下にnotebookを作成し、データを可視化します。
ちなみに、BigQuery APIを扱うためのtutorialは、notebook/datalab/tutorials/BigQuery配下に配置されております。
3, クエリの作成
では、クエリを投げてみましょう。
下記クエリは、全世界で竜巻(Tornado)が発生した件数を2000年1月から1ヶ月分表示するクエリです。
(publicdata:samples.gsodテーブルのデータをお借りしました)
4, データの可視化
先ほどの竜巻発生件数の可視化を行います。
Pythonでの可視化 & コマンドでの可視化の2パターン実行してみます。
Datalab上で使うことが出来るBigQuery Commandsのtutorialは
notebooks/datalab/tutorials/BigQuery/BigQuery Commands.ipynbに記載されています。
ワンライナーでもPythonコードでもグラフのプロットが可能です。
ですが、pandas + matplotlibという強力なライブラリを使えるので、複雑なグラフをプロットする場合は、Pythonでコードを書くことになるかと思います。
5, まとめ
BigQueryのデータを可視化するところまで実装してみました。
データさえBigQueryへ入れておけば、Datalab上でKPIデータ、ログデータを整理、運用することが出来るように感じました。
可視化が簡単に行えるので皆様も是非触ってみては如何でしょうか。