テックブログ

エルカミーの技術ブログです

BigQuery の使える一般公開データ

はじめに

一般公開データセットは、Googleが提供するBigQueryのデータセットで、様々な分野のデータが収集されています。このデータセットには、ビジネス、教育、医療、交通、環境、スポーツ、政治などの分野のデータが含まれており、分析やサンプルデータとして利用することができます。

一般公開データセットここからから、データセットを探すことができます。本記事では、特におすすめのデータセットを紹介します。

ロケーションについて

一般公開データセットは、US や EU のような特定のロケーションに保存されています。クエリ結果を別のリージョンにあるテーブルに書き込むことはできません。また、サンプル テーブルのテーブルを別のリージョンにあるテーブルと結合することもできません。

おすすめ一般公開データ

分析に使えるデータ3つ

Google トレンド
Wikipedia
  • 内容

    Wikipediaのログデータ

  • データセット

    bigquery-public-data.wikipedia

  • テーブル

    pageviews_202x:202x年の各Wikipediaページのページビュー情報

  • サンプルクエリ

    日本のWikipediaページの閲覧数ランキング

    WITH tmp AS (
      SELECT
        DATE(datehour) AS datehour,
        title,
        SUM(views) AS views,
        SUM(IF(wiki ="ja", views, 0)) AS views_ja,
        SUM(IF(wiki ="ja.m", views, 0)) AS views_ja_m,
      FROM
        `bigquery-public-data.wikipedia.pageviews_2023`
      WHERE
        DATE(datehour) = "2023-06-13"
        AND wiki IN ("ja","ja.m")
      GROUP BY
        1,2
      ORDER BY
        1,2
    )
    
    SELECT
      title,
      SUM(views) AS views,
      SUM(views_ja) AS views_ja,
      SUM(views_ja_m) AS views_ja_m,
      SUM(views_ja_m)/SUM(views) AS mobile_rate,
    FROM
      tmp
    GROUP BY
      1
    HAVING
      views >=1000
      AND NOT title IN ("メインページ",
        "特別:検索",
        "-")
    ORDER BY
      views DESC
  • 出力結果
    title views views_ja views_ja_m mobile_rate
    笠原将弘 40149 3753 36396 0.90652320107599194
    高岡蒼佑 29598 12819 16779 0.56689641191972429
    三宅弘城 25796 7351 18445 0.71503333850209339
    君島十和子 24148 5624 18524 0.76710286566175256
    CANDLE_JUNE 21275 8230 13045 0.61316098707403055
世界人口データ(1kmメッシュ)
  • 内容

    世界人口データ(1kmメッシュ)

  • データセット

    bigquery-public-data.worldpop

  • テーブル

    population_grid_1km

  • サンプルクエリ

    最新(2020/01/01)の日本の人口データを取得

    SELECT
    	geo_id,
    	population,
    	geog,
    FROM
    	`bigquery-public-data.worldpop.population_grid_1km` 
    WHERE
    	last_updated = "2020-01-01"
    	AND country_name = "Japan"
  • 出力結果
    geo_id population geog
    wpxp5e05k3kc 147.1934967 POLYGON((139.9237494553 39.91625004171, 139.9320827886 39.91625004171, 139.9320827886 39.92458337501, 139.9237494553 39.92458337501, 139.9237494553 39.91625004171))
    wpxn7539xpx5 2800.976563 POLYGON((139.2904161245 35.73291672511, 139.2987494578 35.73291672511, 139.2987494578 35.74125005841, 139.2904161245 35.74125005841, 139.2904161245 35.73291672511))
    wpxn24d4uz7v 114.9522858 POLYGON((135.0904161413 35.60791672561, 135.0987494746 35.60791672561, 135.0987494746 35.61625005891, 135.0904161413 35.61625005891, 135.0904161413 35.60791672561))
  • その他

    ダッシュボード化のイメージ

    image block

サンプルに使えるデータ(教育用途にもおすすめ)

Google Analytics(GA4)のサンプルデータ
  • 内容

    Google Analytics(GA4)のEコーマスのサンプルデータ

  • データセット

    bigquery-public-data.ga4_obfuscated_sample_ecommerce

  • テーブル

    events_yyyymmdd

  • サンプルクエリ

    対象の期間とイベントを指定して、日付およびイベント名ごとにユニーク イベントの数をカウント

    WITH
      UserInfo AS (
        SELECT
          user_pseudo_id,
          MAX(IF(event_name IN ('first_visit', 'first_open'), 1, 0)) AS is_new_user
        -- Replace table name.
        FROM `bigquery-public-data.ga4_obfuscated_sample_ecommerce.events_*`
        -- Replace date range.
        WHERE _TABLE_SUFFIX BETWEEN '20201101' AND '20201130'
        GROUP BY 1
      )
    SELECT
      COUNT(*) AS user_count,
      SUM(is_new_user) AS new_user_count
    FROM UserInfo;
機械学習のお馴染みデータ
  • 内容

    主に機械学習の学習用途に使えるデータ

  • データセット

    bigquery-public-data.ml_datasets

  • テーブル
    テーブル名 内容
    census_adult_income アメリカの国勢調査の大人の収入に関するデータです。
    特性(年齢、教育、職業など)に基づいて収入が50,000ドル以上かそれ以下かを予測します。
    credit_card_default クレジットカードのデフォルトに関するデータです。
    信用リスク予測に使われます。クライアントの月次支払い履歴、残高、デフォルトの有無などの情報が含まれています。
    holidays_and_events_for_forecasting 祝日やイベントに関するデータです。
    時系列予測モデル(ARIMA_PLUS & ARIMA_PLUS_XREG)のトレーニングに使用される祝日と特別イベントに使えます。
    このデータは包括的なものではなく、すべての地理的地域をカバーしているわけではありません。また、サポートされている地域内でも、既知の祝日がすべて含まれていない場合があります。
    iris アヤメの種類を予測するための有名なデータです。
    機械学習の初学者が分類問題を学ぶためによく使用されます。アヤメの花の特徴(がく片と花びらの長さと幅)から、花の種類(セトナ、バーシクル、バージニカ)を分類します。
    penguins ペンギンに関するデータです。
    機械学習の初学者が分類問題を学ぶためによく使用されます。ペンギンの体の特徴(体長、体重、フリッパーの長さなど)から、ペンギンの種類(アデリー、チンストラップ、ジェンツー)を分類します。
    ulb_fraud_detection 信用カード詐欺検出のためのデータです。信用カード取引の詳細なデータ(時間、金額、各取引)が詐欺かどうかなど、クレジットカード取引の詳細な情報が含まれています。
アイオワ州の小売業者による酒の卸売注文のデータ
  • 内容

    Iowa Liquor Retail Sales

    このデータセットには、2012年1月1日以降、アイオワ州の小売業者が個人に販売するために購入したすべての卸売り酒が含まれています。アイオワ州は小売販売(店外消費)用に意図された酒の卸売り流通を管理しているため、このデータセットは州全体の小売酒消費の完全なビューを提供します。このデータセットには、すべての食料品店、酒屋、コンビニエンスストアなどのすべての小売業者による酒の卸売注文が含まれており、店舗と場所、正確な酒のブランドとサイズ、注文されたボトル数などの詳細が記載されています。
  • データセット

    bigquery-public-data.iowa_liquor_sales

  • テーブル

    sales

  • サンプルクエリ

    アイオワ州で最も売れているアルコール飲料

    SELECT 
      item_description
      ,ROUND(SUM(volume_sold_gallons),2) AS gallons_sold
    FROM `bigquery-public-data.iowa_liquor_sales.sales` 
    GROUP BY 1
    ORDER BY 2 DESC
  • 結果
    item_description gallons_sold
    BLACK VELVET 3966573.69
    HAWKEYE VODKA 2512351.48
    TITOS HANDMADE VODKA 2055769.91
    FIREBALL CINNAMON WHISKEY 1442253.52
    FIVE O'CLOCK VODKA 1262218.76
Eコマースのサンプルデータ
  • 内容

    Synthetic eCommerce and Digital Marketing data

    TheLookは、Lookerチームが開発した架空のeコマース衣料品サイトです。このデータセットには、顧客、商品、注文、物流、ウェブイベント、デジタルマーケティングキャンペーンに関する情報が含まれています。このデータセットの内容は合成であり、製品の発見、テスト、評価の目的で業界の実務者に提供される。
  • データセット

    bigquery-public-data.thelook_ecommerce

  • テーブル
    テーブル 内容
    distribution_centers 物流センターのマスタ
    物流センターID、名前などの項目
    events WEBイベントのトランザクションデータ
    WEBイベントID、ユーザID、セッションID、シーケンスNO、時間、URL、イベントタイプなどの項目
    inventory_items 在庫のトランザクションデータ
    在庫ID、プロダクトID、登録時間などの項目
    order_items 注文アイテムのトランザクションデータ
    注文アイテムID、ユーザID、製品ID、在庫ID、状態、時間などの項目
    orders 注文のトランザクションデータ
    注文ID、ユーザID、状態、時間、個数などの項目
    products 製品のマスタ
    製品ID、価格、カテゴリ、製品名、物流センターIDなどの項目
    users ユーザのマスタ
    ユーザID、名前、性別、年齢などの項目
  • クエリ

    売れている商品の抽出

    SELECT
      oi.product_id AS product_id,
      p.name AS product_name,
      p.category AS product_category,
      COUNT(*) AS num_of_orders
    FROM
      `bigquery-public-data.thelook_ecommerce.products` AS p
    JOIN
      `bigquery-public-data.thelook_ecommerce.order_items` AS oi
    ON
      p.id = oi.product_id
    GROUP BY
      1,2,3
    ORDER BY
      num_of_orders DESC
  • 出力
    product_id product_name product_category num_of_orders
    22294 KingSize Big & Tall Pleated Wrinkle Resistant Side Elastic Chinos Pants 19
    15421 LibbySue-Silk Blend Ombre Oblong Chiffon Scarf Plus 19
    26426 Mens Boxer Microfiber With Silver Accent NU Underwear 18
    27594 Hurley Men's Shutter Phantom Boardshort Swim 17
    27985 Reyn Spooner Men's Kuilima Elastic Trunk Swim 17
参考

公式のドキュメント