データの準備と読み込み
MIDASでデータを分析するには、データファイルを読み込みます。対応しているファイル形式、データ型、測定尺度について説明します。
対応しているファイル形式
MIDASは以下のテキスト形式のデータファイルに対応しています:
CSV(カンマ区切り)
最も一般的なデータ形式です。カンマ(,)で列が区切られています。ファイルの拡張子は通常 .csv です。
TSV(タブ区切り)
タブ文字で列が区切られたファイルです。ファイルの拡張子は通常 .tsv または .txt です。
文字コード UTF-8エンコーディングに対応しています。ExcelでCSVを保存する場合、「CSV UTF-8(コンマ区切り)」形式を選択してください。
ファイルの構造
MIDASは、データファイルが以下の構造を持つと仮定します。
- 1行目: 列名(ヘッダー行)
- 2行目以降: データ行
例:
Name,Age,Country
Alice,25,USA
Bob,30,Japan
Charlie,28,UK
データ型
MIDASは読み込んだデータの型を自動的に判定します。以下のデータ型がサポートされています:
boolean(真偽値)
true/false、1/0、yes/no などで表される真偽値です。
int64(整数)
小数点を含まない数値です(例: 1, 42, -10)。
float64(浮動小数点数)
小数点を含む数値です(例: 3.14, 0.5, -2.71)。
date(日付)
日付を表すデータです(例: 2025-11-17, 2025/11/17)。
datetime(日時)
日付と時刻を含むデータです(例: 2025-11-17 14:30:00)。
timespan(時間間隔)
時刻を表すデータです(例: 14:30:00, 09:15)。
duration(期間)
時間の長さを表すデータです(例: 1h 30m, 2d 3h)。
string(文字列) 上記のいずれにも該当しない、テキストデータです。
データ型は列ヘッダーに括弧付きで表示されます(例: Age (int64))。データ型が正しく判定されなかった場合は、データテーブルで列を右クリックし、「Convert Column Type」から型変換を実行します。
測定尺度
データの列には、統計的な「測定尺度」が自動的に割り当てられます。測定尺度はデータ型に基づいて判定されますが、データの実際の意味に応じて変更が必要な場合があります。測定尺度は、そのデータに対してどのような統計処理が適切かを示します。
名義尺度(Nominal) カテゴリを表すデータで、順序に意味がありません。
例: 性別(男性/女性)、色(赤/青/緑)、国名
順序尺度(Ordinal) カテゴリを表すデータで、順序に意味があります。
例: 満足度(低い/普通/高い)、学年(1年/2年/3年)、成績(A/B/C/D)
間隔尺度(Interval) 等間隔な数値データで、値の差をとることに意味があります。しかし、「何倍」という操作には意味がありません。
例: 温度(摂氏)、年(西暦)
- 20℃と10℃の差は10℃という意味がある
- しかし20℃は10℃の「2倍暖かい」とは言えない
比率尺度(Ratio) 等間隔な数値データで、値の差をとることにも「何倍」という操作にも意味があります。
例: 身長、体重、価格、年齢
- 20kgと10kgの差は10kgという意味がある
- さらに20kgは10kgの「2倍重い」と言える
測定尺度は、グラフの種類や統計解析の選択に影響します。必要に応じて、データテーブルで列を右クリックして測定尺度を変更できます。
よくある問題と解決方法
文字化けする
ファイルの文字コードがUTF-8ではない可能性があります。Excelで「CSV UTF-8(コンマ区切り)」形式で保存し直してください。
日付が正しく認識されない
日付の形式が一般的な形式(YYYY-MM-DDなど)でない可能性があります。Excelで日付列の書式を変更するか、文字列として読み込んだ後に変換してください。
Excelファイルを読み込みたい
MIDASはExcelファイル(.xlsx)を直接読み込むことはできません。Excelで「名前を付けて保存」→「CSV UTF-8(コンマ区切り)」形式で保存してから読み込んでください。