はじめに
ビッグデータの分析を実施するにあたって、 BigQueryはその強力なツールとして広く利用されています。この記事では、BigQueryの基本的な概念、使い方を説明します。
BigQueryの概念
BigQueryは、Googleが提供するフルマネージド型のデータウェアハウスです。大規模なデータセットに対してSQLクエリを実行し、高速な分析を行うことができます。BigQueryには以下の概念があります。
- プロジェクト:BigQueryリソースの最上位の組織単位です。
- データセット:テーブルとビューの集合体です。データセットは特定の地域に関連付けられています。
- テーブル:行と列からなるデータの集合です。各テーブルはスキーマ(フィールド名、型、その他の情報)を持ちます。
-
ジョブ:クエリやデータの読み込み、エクスポートなど、BigQueryで実行する操作を表します。
BigQueryのチュートリアル
BigQueryの基本的な使い方は以下のステップで行います。
- Google Cloudアカウントの作成:Google アカウントをまだお持ちでない場合は、 作成する必要があります。
- BigQuery APIの有効化: Google Cloud Consoleにログインし 、BigQuery に移動します。Cloud Consoleの「APIとサービス」メニューから「ライブラリ」を選択し、BigQuery APIを検索して有効化します。
-
データのアップロード:データをBigQueryにアップロードするためには、まずデータセットを作成します。その後、テーブルを作成し、データをそのテーブルにアップロードします。
💡ローカル環境からBigQueryを利用するためには、Google Cloud SDKがインストールされていることと、gcloudコマンドラインツールが正しく認証されていることが必要です。
# データセットの作成 bq mk my_dataset # データ作成 echo "id,name,age" > sample_data.csv echo "1,Alice,30" >> sample_data.csv echo "2,Bob,28" >> sample_data.csv # テーブルの作成とCSVファイルからのデータのロード bq load \ --autodetect \ --source_format=CSV \ --skip_leading_rows=1 \ my_dataset.my_table \ ./sample_data.csv
-
クエリの実行:データがアップロードされたら、SQLを使用してデータに対するクエリを実行できます。BigQueryのWeb UI、コマンドラインツール、またはBigQuery REST APIからクエリを実行することができます。
コマンドラインからの実行の場合
# クエリの実行 bq query --nouse_legacy_sql 'SELECT * FROM `my_dataset.my_table`'
もっと学ぶには
Google Codelabsによるパブリックデータを使ったチュートリアル