はじめに
一般公開データセットは、Googleが提供するBigQueryのデータセットで、様々な分野のデータが収集されています。このデータセットには、ビジネス、教育、医療、交通、環境、スポーツ、政治などの分野のデータが含まれており、分析やサンプルデータとして利用することができます。
一般公開データセットここからから、データセットを探すことができます。本記事では、特におすすめのデータセットを紹介します。
一般公開データセットは、US
や EU
のような特定のロケーションに保存されています。クエリ結果を別のリージョンにあるテーブルに書き込むことはできません。また、サンプル テーブルのテーブルを別のリージョンにあるテーブルと結合することもできません。
おすすめ一般公開データ
分析に使えるデータ3つ
Google トレンド
-
内容
Google トレンドのデータ
-
データセット
bigquery-public-data.google_trends
-
テーブル
テーブル名 内容 top_rising_terms
急上昇トレンドワード(米国) top_terms
トレンドワード(米国) international_top_rising_terms
急上昇トレンドワード(世界) international_top_terms
トレンドワード(世界) -
サンプルクエリ
日次のトップワードを抽出(日本)
-- This query shows a list of the daily top Google Search terms. SELECT refresh_date AS Day, term AS Top_Term, -- These search terms are in the top 25 in the US each day. rank, FROM `bigquery-public-data.google_trends.international_top_terms` WHERE rank = 1 -- Choose only the top term each day. AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK) -- Filter to the last 2 weeks. AND country_name = "Japan" GROUP BY Day, Top_Term, rank ORDER BY Day DESC -- Show the days in reverse chronological order.
-
出力結果
Day Top_Term rank 2023/6/12 北海道 地震 1 2023/6/11 きさらぎ駅 1 2023/6/10 奈良県大和高田市事故 1 2023/6/9 全仏オープンテニス加藤失格 1 2023/6/8 広末涼子 1 2023/6/7 Apple 1 2023/6/6 ビタミンD 1 2023/6/5 ガーシー 1 2023/6/4 海街ダイアリー 1 2023/6/3 上岡龍太郎 1 -
その他
ダッシュボード化のイメージ
Wikipedia
-
内容
Wikipediaのログデータ
-
データセット
bigquery-public-data.wikipedia
-
テーブル
pageviews_202x
:202x年の各Wikipediaページのページビュー情報 -
サンプルクエリ
日本のWikipediaページの閲覧数ランキング
WITH tmp AS ( SELECT DATE(datehour) AS datehour, title, SUM(views) AS views, SUM(IF(wiki ="ja", views, 0)) AS views_ja, SUM(IF(wiki ="ja.m", views, 0)) AS views_ja_m, FROM `bigquery-public-data.wikipedia.pageviews_2023` WHERE DATE(datehour) = "2023-06-13" AND wiki IN ("ja","ja.m") GROUP BY 1,2 ORDER BY 1,2 ) SELECT title, SUM(views) AS views, SUM(views_ja) AS views_ja, SUM(views_ja_m) AS views_ja_m, SUM(views_ja_m)/SUM(views) AS mobile_rate, FROM tmp GROUP BY 1 HAVING views >=1000 AND NOT title IN ("メインページ", "特別:検索", "-") ORDER BY views DESC
-
出力結果
title views views_ja views_ja_m mobile_rate 笠原将弘 40149 3753 36396 0.90652320107599194 高岡蒼佑 29598 12819 16779 0.56689641191972429 三宅弘城 25796 7351 18445 0.71503333850209339 君島十和子 24148 5624 18524 0.76710286566175256 CANDLE_JUNE 21275 8230 13045 0.61316098707403055
世界人口データ(1kmメッシュ)
-
内容
世界人口データ(1kmメッシュ)
-
データセット
bigquery-public-data.worldpop
-
テーブル
population_grid_1km
-
サンプルクエリ
最新(2020/01/01)の日本の人口データを取得
SELECT geo_id, population, geog, FROM `bigquery-public-data.worldpop.population_grid_1km` WHERE last_updated = "2020-01-01" AND country_name = "Japan"
-
出力結果
geo_id population geog wpxp5e05k3kc 147.1934967 POLYGON((139.9237494553 39.91625004171, 139.9320827886 39.91625004171, 139.9320827886 39.92458337501, 139.9237494553 39.92458337501, 139.9237494553 39.91625004171)) wpxn7539xpx5 2800.976563 POLYGON((139.2904161245 35.73291672511, 139.2987494578 35.73291672511, 139.2987494578 35.74125005841, 139.2904161245 35.74125005841, 139.2904161245 35.73291672511)) wpxn24d4uz7v 114.9522858 POLYGON((135.0904161413 35.60791672561, 135.0987494746 35.60791672561, 135.0987494746 35.61625005891, 135.0904161413 35.61625005891, 135.0904161413 35.60791672561)) -
その他
ダッシュボード化のイメージ
サンプルに使えるデータ(教育用途にもおすすめ)
Google Analytics(GA4)のサンプルデータ
-
内容
Google Analytics(GA4)のEコーマスのサンプルデータ
-
データセット
bigquery-public-data.ga4_obfuscated_sample_ecommerce
-
テーブル
events_yyyymmdd
-
サンプルクエリ
対象の期間とイベントを指定して、日付およびイベント名ごとにユニーク イベントの数をカウント
WITH UserInfo AS ( SELECT user_pseudo_id, MAX(IF(event_name IN ('first_visit', 'first_open'), 1, 0)) AS is_new_user -- Replace table name. FROM `bigquery-public-data.ga4_obfuscated_sample_ecommerce.events_*` -- Replace date range. WHERE _TABLE_SUFFIX BETWEEN '20201101' AND '20201130' GROUP BY 1 ) SELECT COUNT(*) AS user_count, SUM(is_new_user) AS new_user_count FROM UserInfo;
機械学習のお馴染みデータ
-
内容
主に機械学習の学習用途に使えるデータ
-
データセット
bigquery-public-data.ml_datasets
-
テーブル
テーブル名 内容 census_adult_income
アメリカの国勢調査の大人の収入に関するデータです。
特性(年齢、教育、職業など)に基づいて収入が50,000ドル以上かそれ以下かを予測します。credit_card_default
クレジットカードのデフォルトに関するデータです。
信用リスク予測に使われます。クライアントの月次支払い履歴、残高、デフォルトの有無などの情報が含まれています。holidays_and_events_for_forecasting
祝日やイベントに関するデータです。
時系列予測モデル(ARIMA_PLUS & ARIMA_PLUS_XREG)のトレーニングに使用される祝日と特別イベントに使えます。
このデータは包括的なものではなく、すべての地理的地域をカバーしているわけではありません。また、サポートされている地域内でも、既知の祝日がすべて含まれていない場合があります。iris
アヤメの種類を予測するための有名なデータです。
機械学習の初学者が分類問題を学ぶためによく使用されます。アヤメの花の特徴(がく片と花びらの長さと幅)から、花の種類(セトナ、バーシクル、バージニカ)を分類します。penguins
ペンギンに関するデータです。
機械学習の初学者が分類問題を学ぶためによく使用されます。ペンギンの体の特徴(体長、体重、フリッパーの長さなど)から、ペンギンの種類(アデリー、チンストラップ、ジェンツー)を分類します。ulb_fraud_detection
信用カード詐欺検出のためのデータです。信用カード取引の詳細なデータ(時間、金額、各取引)が詐欺かどうかなど、クレジットカード取引の詳細な情報が含まれています。
アイオワ州の小売業者による酒の卸売注文のデータ
-
内容
Iowa Liquor Retail Sales
このデータセットには、2012年1月1日以降、アイオワ州の小売業者が個人に販売するために購入したすべての卸売り酒が含まれています。アイオワ州は小売販売(店外消費)用に意図された酒の卸売り流通を管理しているため、このデータセットは州全体の小売酒消費の完全なビューを提供します。このデータセットには、すべての食料品店、酒屋、コンビニエンスストアなどのすべての小売業者による酒の卸売注文が含まれており、店舗と場所、正確な酒のブランドとサイズ、注文されたボトル数などの詳細が記載されています。
-
データセット
bigquery-public-data.iowa_liquor_sales
-
テーブル
sales
-
サンプルクエリ
アイオワ州で最も売れているアルコール飲料
SELECT item_description ,ROUND(SUM(volume_sold_gallons),2) AS gallons_sold FROM `bigquery-public-data.iowa_liquor_sales.sales` GROUP BY 1 ORDER BY 2 DESC
-
結果
item_description gallons_sold BLACK VELVET 3966573.69 HAWKEYE VODKA 2512351.48 TITOS HANDMADE VODKA 2055769.91 FIREBALL CINNAMON WHISKEY 1442253.52 FIVE O'CLOCK VODKA 1262218.76
Eコマースのサンプルデータ
-
内容
Synthetic eCommerce and Digital Marketing data
TheLookは、Lookerチームが開発した架空のeコマース衣料品サイトです。このデータセットには、顧客、商品、注文、物流、ウェブイベント、デジタルマーケティングキャンペーンに関する情報が含まれています。このデータセットの内容は合成であり、製品の発見、テスト、評価の目的で業界の実務者に提供される。
-
データセット
bigquery-public-data.thelook_ecommerce
-
テーブル
テーブル 内容 distribution_centers
物流センターのマスタ
物流センターID、名前などの項目events
WEBイベントのトランザクションデータ
WEBイベントID、ユーザID、セッションID、シーケンスNO、時間、URL、イベントタイプなどの項目inventory_items
在庫のトランザクションデータ
在庫ID、プロダクトID、登録時間などの項目order_items
注文アイテムのトランザクションデータ
注文アイテムID、ユーザID、製品ID、在庫ID、状態、時間などの項目orders
注文のトランザクションデータ
注文ID、ユーザID、状態、時間、個数などの項目products
製品のマスタ
製品ID、価格、カテゴリ、製品名、物流センターIDなどの項目users
ユーザのマスタ
ユーザID、名前、性別、年齢などの項目 -
クエリ
売れている商品の抽出
SELECT oi.product_id AS product_id, p.name AS product_name, p.category AS product_category, COUNT(*) AS num_of_orders FROM `bigquery-public-data.thelook_ecommerce.products` AS p JOIN `bigquery-public-data.thelook_ecommerce.order_items` AS oi ON p.id = oi.product_id GROUP BY 1,2,3 ORDER BY num_of_orders DESC
-
出力
product_id product_name product_category num_of_orders 22294 KingSize Big & Tall Pleated Wrinkle Resistant Side Elastic Chinos Pants 19 15421 LibbySue-Silk Blend Ombre Oblong Chiffon Scarf Plus 19 26426 Mens Boxer Microfiber With Silver Accent NU Underwear 18 27594 Hurley Men's Shutter Phantom Boardshort Swim 17 27985 Reyn Spooner Men's Kuilima Elastic Trunk Swim 17
参考
公式のドキュメント