テックブログ

エルカミーの技術ブログです

BigQueryの基礎(チュートリアル編)

はじめに

ビッグデータの分析を実施するにあたって、 BigQueryはその強力なツールとして広く利用されています。この記事では、BigQueryの基本的な概念、使い方を説明します。

BigQueryの概念

BigQueryは、Googleが提供するフルマネージド型のデータウェアハウスです。大規模なデータセットに対してSQLクエリを実行し、高速な分析を行うことができます。BigQueryには以下の概念があります。

image block
  • プロジェクト:BigQueryリソースの最上位の組織単位です。
  • データセット:テーブルとビューの集合体です。データセットは特定の地域に関連付けられています。
  • テーブル:行と列からなるデータの集合です。各テーブルはスキーマ(フィールド名、型、その他の情報)を持ちます。
  • ジョブ:クエリやデータの読み込み、エクスポートなど、BigQueryで実行する操作を表します。

BigQueryのチュートリアル

BigQueryの基本的な使い方は以下のステップで行います。

  1. Google Cloudアカウントの作成:Google アカウントをまだお持ちでない場合は、 作成する必要があります。
  2. BigQuery APIの有効化Google Cloud Consoleにログインし 、BigQuery に移動します。Cloud Consoleの「APIとサービス」メニューから「ライブラリ」を選択し、BigQuery APIを検索して有効化します。
  3. データのアップロード:データをBigQueryにアップロードするためには、まずデータセットを作成します。その後、テーブルを作成し、データをそのテーブルにアップロードします。
    💡
    ローカル環境からBigQueryを利用するためには、Google Cloud SDKがインストールされていることと、gcloudコマンドラインツールが正しく認証されていることが必要です。
    # データセットの作成
    bq mk my_dataset
    
    # データ作成
    echo "id,name,age" > sample_data.csv
    echo "1,Alice,30" >> sample_data.csv
    echo "2,Bob,28" >> sample_data.csv
    
    # テーブルの作成とCSVファイルからのデータのロード
    bq load \
    --autodetect \
    --source_format=CSV \
    --skip_leading_rows=1 \
    my_dataset.my_table \
    ./sample_data.csv
  4. クエリの実行:データがアップロードされたら、SQLを使用してデータに対するクエリを実行できます。BigQueryのWeb UI、コマンドラインツール、またはBigQuery REST APIからクエリを実行することができます。

    コマンドラインからの実行の場合

    # クエリの実行
    bq query --nouse_legacy_sql 'SELECT * FROM `my_dataset.my_table`'
もっと学ぶには

Google Codelabsによるパブリックデータを使ったチュートリアル