サンプルデータセット
MIDASには、データ分析や可視化の学習に使えるサンプルデータが含まれています。
サンプルデータの開き方
- MIDASを開くと、ランチャー画面が表示されます
- 左サイドバーの「Sample Data」セクションから、使いたいデータセットをクリックします
- データが読み込まれ、プロジェクト画面が開きます
Palmer Penguins
南極で観測された3種類のペンギンの測定データ(344行、8列)です。分類や可視化の練習に適しています。
列
species: ペンギンの種類(Adelie、Chinstrap、Gentoo)island: 島の名前bill_length_mm: くちばしの長さbill_depth_mm: くちばしの深さflipper_length_mm: フリッパーの長さbody_mass_g: 体重sex: 性別year: 調査年
欠損値が一部含まれているため、データクリーニングの練習にも使えます。
データソース: https://allisonhorst.github.io/palmerpenguins/
ライセンス: CC0(パブリックドメイン)
Gapminder
1952年から2007年までの国別データ(1,704行、6列)。平均寿命、人口、GDPの推移を分析できます。
列
country: 国名continent: 大陸year: 年lifeExp: 平均寿命pop: 人口gdpPercap: 一人当たりGDP
時系列データの可視化や、経済発展と寿命の関係を調べるのに使えます。
データソース: https://www.gapminder.org/data/
ライセンス: CC BY 4.0
出典表示: "Data from Gapminder Foundation, https://www.gapminder.org/data/, CC BY 4.0"
Auto MPG
1970年から1982年の自動車燃費データ(398行、9列)。回帰分析の練習に適しています。
列
mpg: 燃費(マイル/ガロン)cylinders: シリンダー数(4、6、8)displacement: エンジン排気量(立方インチ)horsepower: 馬力weight: 車両重量(ポンド)acceleration: 加速性能(0-60mph到達時間、秒)model_year: モデル年(70 = 1970、82 = 1982)origin: 生産国(usa、europe、japan)name: 車両モデル名
燃費と車両特性の関係を分析できます。重量が増えると燃費が悪化する、シリンダー数が少ないと燃費が良い、年代が進むと燃費が改善する、といった関係性を確認できます。欠損値が一部含まれています。
データソース: https://archive.ics.uci.edu/dataset/9/auto+mpg
ライセンス: パブリックドメイン
World Bank
50の主要国の開発指標(50行、10列、2021-2022年データ)。GDP、人口、平均寿命、インターネット普及率などが含まれます。棒グラフやクロス集計の練習に向いています。
列
country: 国名country_code: 国コードregion: 地域income_group: 所得グループpopulation_2022: 人口(2022年)gdp_usd_billions_2022: GDP(10億米ドル、2022年)gdp_per_capita_2022: 一人当たりGDP(2022年)life_expectancy_2021: 平均寿命(2021年)urban_population_percent_2022: 都市人口比率(2022年)internet_users_percent_2021: インターネット利用率(2021年)
各国の経済発展と社会指標の比較に適しています。
データソース: https://data.worldbank.org/
ライセンス: CC BY 4.0
出典表示: "Data from World Bank Open Data, https://data.worldbank.org/, CC BY 4.0"
Bike Sharing
ワシントンD.C.の自転車シェアリングデータ(2011-2012年)。日次(731行)と時間次(17,379行)の2種類があります。天候や季節による利用パターンの分析、GLMを使ったカウントデータの分析に使えます。
時間変数
instant: レコードIDdteday: 日付(YYYY-MM-DD)season: 季節(1:春、2:夏、3:秋、4:冬)yr: 年(0:2011、1:2012)mnth: 月(1-12)hr: 時刻(0-23、時間次データのみ)weekday: 曜日(0:日曜、6:土曜)holiday: 祝日フラグ(0:通常日、1:祝日)workingday: 営業日フラグ(1:平日、0:週末または祝日)
天候変数
weathersit: 天候状況- 1: 晴れ、少ない雲、部分的に曇り
- 2: 霧+曇り、霧+ちぎれ雲
- 3: 小雪、小雨+雷雨+散在雲
- 4: 大雨+氷の粒+雷雨+霧
temp: 正規化気温(摂氏温度を41で割った値)atemp: 正規化体感温度(摂氏体感温度を50で割った値)hum: 正規化湿度(湿度を100で割った値)windspeed: 正規化風速(風速を67で割った値)
利用数
casual: 非会員利用数registered: 会員利用数cnt: 総利用数(casual + registered)
ポアソン回帰による利用数予測、時系列パターンの分析、天候・季節要因の影響評価に適しています。過分散(分散 > 平均)が想定されるカウントデータです。
データソース: https://archive.ics.uci.edu/dataset/275/bike+sharing+dataset
ライセンス: CC0(パブリックドメイン)
Earthquakes
2024年9月の世界中の地震データ(1,041行、7列、M4.0以上)。日時データの可視化に適しています。
列
time: 発生日時latitude,longitude: 位置depth: 深さmag: マグニチュードplace: 発生場所
日付、時刻、曜日の分布などを確認できます。
データソース: https://www.usgs.gov/programs/earthquake-hazards
ライセンス: パブリックドメイン(USGSデータ)
Iris
3種類のアヤメの測定データで、古典的な分類データセットです(150行、5列)。
列
sepal_length,sepal_width: がく片のサイズpetal_length,petal_width: 花弁のサイズspecies: 種類
データソース: https://archive.ics.uci.edu/dataset/53/iris
ライセンス: パブリックドメイン