基本統計量
Statistics タブでは、選択した列の統計情報を確認できます。
基本的な使い方 の「基本統計量を見る」セクションもご覧ください。
測定尺度と統計量
MIDASでは、列の測定尺度(Nominal、Ordinal、Interval、Ratio)に応じて、統計的に意味のある項目のみを表示します。
各尺度で表示される統計量
| 統計量 | Nominal | Ordinal | Interval | Ratio |
|---|---|---|---|---|
| Valid values | o | o | o | o |
| Missing values | o | o | o | o |
| Mode | o | o | o | o |
| Min / Max | o | o | o | |
| Median | o | o | o | |
| Mean | o | o | ||
| Std Dev | o | o | ||
| Coef. of Variation | o | |||
| Geometric Mean | o |
各統計量の説明
- Valid values: その列の欠損値でない有効なデータの件数
- Missing values: その列の欠損値(null)の件数
- Mode: 最も頻度が高い値(最頻値)
- Min / Max: 最小値と最大値
- Median: 中央値(データを昇順に並べたときの中央の値)
- Mean: 平均値
- Std Dev: 標準偏差(データのばらつきの指標)
- Coef. of Variation: 変動係数(標準偏差 / 平均 × 100%)。平均に対するばらつきの相対的な大きさを表します
- Geometric Mean: 幾何平均。比率データの平均を求める際に使用します(正の値のみ計算可能)
例:測定尺度と統計量
たとえば、郵便番号は Nominal(名義尺度)として扱うのが適切です。名義尺度として扱うと、平均や標準偏差は表示されません。これは、名義尺度では数値の大小関係に意味がないためです(郵便番号 100-0001 が 150-0001 より「小さい」ことに意味はありません)。
一方、気温のデータは Interval(間隔尺度)として扱うのが適切です。間隔尺度として扱うと、平均や標準偏差が計算されます。
測定尺度の変更方法については データの準備と読み込み をご覧ください。
グループ化機能
Show stats by オプションを使うと、カテゴリ列でデータをグループ化し、グループごとの統計量を確認できます。
使い方
- Statistics タブの Settings セクションを開く
- Show stats by ドロップダウンから、グループ化に使用する列を選択(例:
species) - 選択した列の値ごとに統計情報が表示される
活用例
Iris データセットで sepal_length 列を選択し、species でグループ化すると:
- setosa の sepal_length の統計
- versicolor の sepal_length の統計
- virginica の sepal_length の統計
がそれぞれ表示され、品種間の比較ができます。
データ型別の統計
文字列型(string)
文字列の列を選択すると、以下が表示されます:
- Unique values: ユニークな値の種類数
- Most frequent (top 10): 頻度が高い上位10個の値とその件数
ブール型(boolean)
True/False の列を選択すると、以下が表示されます:
- True: True の件数と割合(%)
- False: False の件数と割合(%)
日時型(datetime)
日時の列を選択すると、以下が表示されます:
- Earliest: 最も古い日時
- Latest: 最も新しい日時
- Time span: 期間(例:「5 days, 3 hours」)
行選択との連携
Statistics タブのヒストグラムや散布図から、データの行を選択できます。
ヒストグラムから選択
- ヒストグラムのバーをクリック
- そのビン(区間)に該当する行が選択される
- 選択された行は Selected Rows タブで確認できる
追加選択: Ctrl(Mac: Cmd)キーを押しながらクリックすると、既存の選択に追加できます。
散布図から選択
複数の数値列を選択すると表示される相関散布図でも、同様に行を選択できます:
- 散布図上の点をクリック
- 該当する行が選択される