データの準備と読み込み

MIDASでデータを分析するには、データファイルを読み込みます。対応しているファイル形式、データ型、測定尺度について説明します。

対応しているファイル形式

MIDASは以下のテキスト形式のデータファイルに対応しています:

CSV(カンマ区切り) 最も一般的なデータ形式です。カンマ(,)で列が区切られています。ファイルの拡張子は通常 .csv です。

TSV(タブ区切り) タブ文字で列が区切られたファイルです。ファイルの拡張子は通常 .tsv または .txt です。

文字コード UTF-8エンコーディングに対応しています。ExcelでCSVを保存する場合、「CSV UTF-8(コンマ区切り)」形式を選択してください。

ファイルの構造

MIDASは、データファイルが以下の構造を持つと仮定します。

  • 1行目: 列名(ヘッダー行)
  • 2行目以降: データ行

例:

Name,Age,Country
Alice,25,USA
Bob,30,Japan
Charlie,28,UK

データ型

MIDASは読み込んだデータの型を自動的に判定します。以下のデータ型がサポートされています:

boolean(真偽値) true/false1/0yes/no などで表される真偽値です。

int64(整数) 小数点を含まない数値です(例: 1, 42, -10)。

float64(浮動小数点数) 小数点を含む数値です(例: 3.14, 0.5, -2.71)。

date(日付) 日付を表すデータです(例: 2025-11-17, 2025/11/17)。

datetime(日時) 日付と時刻を含むデータです(例: 2025-11-17 14:30:00)。

timespan(時間間隔) 時刻を表すデータです(例: 14:30:00, 09:15)。

duration(期間) 時間の長さを表すデータです(例: 1h 30m, 2d 3h)。

string(文字列) 上記のいずれにも該当しない、テキストデータです。

データ型は列ヘッダーに括弧付きで表示されます(例: Age (int64))。データ型が正しく判定されなかった場合は、データテーブルで列を右クリックし、「Convert Column Type」から型変換を実行します。

測定尺度

データの列には、統計的な「測定尺度」が自動的に割り当てられます。測定尺度はデータ型に基づいて判定されますが、データの実際の意味に応じて変更が必要な場合があります。測定尺度は、そのデータに対してどのような統計処理が適切かを示します。

名義尺度(Nominal) カテゴリを表すデータで、順序に意味がありません。

例: 性別(男性/女性)、色(赤/青/緑)、国名

順序尺度(Ordinal) カテゴリを表すデータで、順序に意味があります。

例: 満足度(低い/普通/高い)、学年(1年/2年/3年)、成績(A/B/C/D)

間隔尺度(Interval) 等間隔な数値データで、値の差をとることに意味があります。しかし、「何倍」という操作には意味がありません。

例: 温度(摂氏)、年(西暦)

  • 20℃と10℃の差は10℃という意味がある
  • しかし20℃は10℃の「2倍暖かい」とは言えない

比率尺度(Ratio) 等間隔な数値データで、値の差をとることにも「何倍」という操作にも意味があります。

例: 身長、体重、価格、年齢

  • 20kgと10kgの差は10kgという意味がある
  • さらに20kgは10kgの「2倍重い」と言える

測定尺度は、グラフの種類や統計解析の選択に影響します。必要に応じて、データテーブルで列を右クリックして測定尺度を変更できます。

よくある問題と解決方法

文字化けする

ファイルの文字コードがUTF-8ではない可能性があります。Excelで「CSV UTF-8(コンマ区切り)」形式で保存し直してください。

日付が正しく認識されない

日付の形式が一般的な形式(YYYY-MM-DDなど)でない可能性があります。Excelで日付列の書式を変更するか、文字列として読み込んだ後に変換してください。

Excelファイルを読み込みたい

MIDASはExcelファイル(.xlsx)を直接読み込むことはできません。Excelで「名前を付けて保存」→「CSV UTF-8(コンマ区切り)」形式で保存してから読み込んでください。

関連ページ