基本統計量

Statistics タブでは、選択した列の統計情報を確認できます。

基本的な使い方 の「基本統計量を見る」セクションもご覧ください。

測定尺度と統計量

MIDASでは、列の測定尺度(Nominal、Ordinal、Interval、Ratio)に応じて、統計的に意味のある項目のみを表示します。

各尺度で表示される統計量

統計量 Nominal Ordinal Interval Ratio
Valid values o o o o
Missing values o o o o
Mode o o o o
Min / Max o o o
Median o o o
Mean o o
Std Dev o o
Coef. of Variation o
Geometric Mean o

各統計量の説明

  • Valid values: その列の欠損値でない有効なデータの件数
  • Missing values: その列の欠損値(null)の件数
  • Mode: 最も頻度が高い値(最頻値)
  • Min / Max: 最小値と最大値
  • Median: 中央値(データを昇順に並べたときの中央の値)
  • Mean: 平均値
  • Std Dev: 標準偏差(データのばらつきの指標)
  • Coef. of Variation: 変動係数(標準偏差 / 平均 × 100%)。平均に対するばらつきの相対的な大きさを表します
  • Geometric Mean: 幾何平均。比率データの平均を求める際に使用します(正の値のみ計算可能)

例:測定尺度と統計量

たとえば、郵便番号は Nominal(名義尺度)として扱うのが適切です。名義尺度として扱うと、平均や標準偏差は表示されません。これは、名義尺度では数値の大小関係に意味がないためです(郵便番号 100-0001 が 150-0001 より「小さい」ことに意味はありません)。

一方、気温のデータは Interval(間隔尺度)として扱うのが適切です。間隔尺度として扱うと、平均や標準偏差が計算されます。

測定尺度の変更方法については データの準備と読み込み をご覧ください。

グループ化機能

Show stats by オプションを使うと、カテゴリ列でデータをグループ化し、グループごとの統計量を確認できます。

使い方

  1. Statistics タブの Settings セクションを開く
  2. Show stats by ドロップダウンから、グループ化に使用する列を選択(例:species
  3. 選択した列の値ごとに統計情報が表示される

活用例

Iris データセットで sepal_length 列を選択し、species でグループ化すると:

  • setosa の sepal_length の統計
  • versicolor の sepal_length の統計
  • virginica の sepal_length の統計

がそれぞれ表示され、品種間の比較ができます。

データ型別の統計

文字列型(string)

文字列の列を選択すると、以下が表示されます:

  • Unique values: ユニークな値の種類数
  • Most frequent (top 10): 頻度が高い上位10個の値とその件数

ブール型(boolean)

True/False の列を選択すると、以下が表示されます:

  • True: True の件数と割合(%)
  • False: False の件数と割合(%)

日時型(datetime)

日時の列を選択すると、以下が表示されます:

  • Earliest: 最も古い日時
  • Latest: 最も新しい日時
  • Time span: 期間(例:「5 days, 3 hours」)

行選択との連携

Statistics タブのヒストグラムや散布図から、データの行を選択できます。

ヒストグラムから選択

  1. ヒストグラムのバーをクリック
  2. そのビン(区間)に該当する行が選択される
  3. 選択された行は Selected Rows タブで確認できる

追加選択: Ctrl(Mac: Cmd)キーを押しながらクリックすると、既存の選択に追加できます。

散布図から選択

複数の数値列を選択すると表示される相関散布図でも、同様に行を選択できます:

  1. 散布図上の点をクリック
  2. 該当する行が選択される