サンプルデータセット

MIDASには、データ分析や可視化の学習に使えるサンプルデータが含まれています。

サンプルデータの開き方

  1. MIDASを開くと、ランチャー画面が表示されます
  2. 左サイドバーの「Sample Data」セクションから、使いたいデータセットをクリックします
  3. データが読み込まれ、プロジェクト画面が開きます

Palmer Penguins

南極で観測された3種類のペンギンの測定データ(344行、8列)です。分類や可視化の練習に適しています。

  • species: ペンギンの種類(Adelie、Chinstrap、Gentoo)
  • island: 島の名前
  • bill_length_mm: くちばしの長さ
  • bill_depth_mm: くちばしの深さ
  • flipper_length_mm: フリッパーの長さ
  • body_mass_g: 体重
  • sex: 性別
  • year: 調査年

欠損値が一部含まれているため、データクリーニングの練習にも使えます。

データソース: https://allisonhorst.github.io/palmerpenguins/

ライセンス: CC0(パブリックドメイン)

Gapminder

1952年から2007年までの国別データ(1,704行、6列)。平均寿命、人口、GDPの推移を分析できます。

  • country: 国名
  • continent: 大陸
  • year: 年
  • lifeExp: 平均寿命
  • pop: 人口
  • gdpPercap: 一人当たりGDP

時系列データの可視化や、経済発展と寿命の関係を調べるのに使えます。

データソース: https://www.gapminder.org/data/

ライセンス: CC BY 4.0

出典表示: "Data from Gapminder Foundation, https://www.gapminder.org/data/, CC BY 4.0"

Auto MPG

1970年から1982年の自動車燃費データ(398行、9列)。回帰分析の練習に適しています。

  • mpg: 燃費(マイル/ガロン)
  • cylinders: シリンダー数(4、6、8)
  • displacement: エンジン排気量(立方インチ)
  • horsepower: 馬力
  • weight: 車両重量(ポンド)
  • acceleration: 加速性能(0-60mph到達時間、秒)
  • model_year: モデル年(70 = 1970、82 = 1982)
  • origin: 生産国(usa、europe、japan)
  • name: 車両モデル名

燃費と車両特性の関係を分析できます。重量が増えると燃費が悪化する、シリンダー数が少ないと燃費が良い、年代が進むと燃費が改善する、といった関係性を確認できます。欠損値が一部含まれています。

データソース: https://archive.ics.uci.edu/dataset/9/auto+mpg

ライセンス: パブリックドメイン

World Bank

50の主要国の開発指標(50行、10列、2021-2022年データ)。GDP、人口、平均寿命、インターネット普及率などが含まれます。棒グラフやクロス集計の練習に向いています。

  • country: 国名
  • country_code: 国コード
  • region: 地域
  • income_group: 所得グループ
  • population_2022: 人口(2022年)
  • gdp_usd_billions_2022: GDP(10億米ドル、2022年)
  • gdp_per_capita_2022: 一人当たりGDP(2022年)
  • life_expectancy_2021: 平均寿命(2021年)
  • urban_population_percent_2022: 都市人口比率(2022年)
  • internet_users_percent_2021: インターネット利用率(2021年)

各国の経済発展と社会指標の比較に適しています。

データソース: https://data.worldbank.org/

ライセンス: CC BY 4.0

出典表示: "Data from World Bank Open Data, https://data.worldbank.org/, CC BY 4.0"

Bike Sharing

ワシントンD.C.の自転車シェアリングデータ(2011-2012年)。日次(731行)と時間次(17,379行)の2種類があります。天候や季節による利用パターンの分析、GLMを使ったカウントデータの分析に使えます。

時間変数

  • instant: レコードID
  • dteday: 日付(YYYY-MM-DD)
  • season: 季節(1:春、2:夏、3:秋、4:冬)
  • yr: 年(0:2011、1:2012)
  • mnth: 月(1-12)
  • hr: 時刻(0-23、時間次データのみ)
  • weekday: 曜日(0:日曜、6:土曜)
  • holiday: 祝日フラグ(0:通常日、1:祝日)
  • workingday: 営業日フラグ(1:平日、0:週末または祝日)

天候変数

  • weathersit: 天候状況
    • 1: 晴れ、少ない雲、部分的に曇り
    • 2: 霧+曇り、霧+ちぎれ雲
    • 3: 小雪、小雨+雷雨+散在雲
    • 4: 大雨+氷の粒+雷雨+霧
  • temp: 正規化気温(摂氏温度を41で割った値)
  • atemp: 正規化体感温度(摂氏体感温度を50で割った値)
  • hum: 正規化湿度(湿度を100で割った値)
  • windspeed: 正規化風速(風速を67で割った値)

利用数

  • casual: 非会員利用数
  • registered: 会員利用数
  • cnt: 総利用数(casual + registered)

ポアソン回帰による利用数予測、時系列パターンの分析、天候・季節要因の影響評価に適しています。過分散(分散 > 平均)が想定されるカウントデータです。

データソース: https://archive.ics.uci.edu/dataset/275/bike+sharing+dataset

ライセンス: CC0(パブリックドメイン)

Earthquakes

2024年9月の世界中の地震データ(1,041行、7列、M4.0以上)。日時データの可視化に適しています。

  • time: 発生日時
  • latitude, longitude: 位置
  • depth: 深さ
  • mag: マグニチュード
  • place: 発生場所

日付、時刻、曜日の分布などを確認できます。

データソース: https://www.usgs.gov/programs/earthquake-hazards

ライセンス: パブリックドメイン(USGSデータ)

Iris

3種類のアヤメの測定データで、古典的な分類データセットです(150行、5列)。

  • sepal_length, sepal_width: がく片のサイズ
  • petal_length, petal_width: 花弁のサイズ
  • species: 種類

データソース: https://archive.ics.uci.edu/dataset/53/iris

ライセンス: パブリックドメイン