one-hotベクトル
 エンコーディング
 カテゴリ変数
 カテゴリデータ
 MNISTデータ

 NN機能・要件
 NN構成・方式
 構成・方式など
 タスク
 導入
 Sample

 用語

 one-hotベクトル
1つだけ1でそれ以外は0のベクトル(行列)
カテゴリー変数を0,1の変数に変換して、学習器が学習しやすい形に変換する。

 カテゴリ変数のエンコーディング
 ・One-Hot エンコーディング
変数のラベルの種類毎に特徴量(列)を生成し、True(1)、False(0)を割当てる。
 ・ラベルエンコーディング
各ラベルを数値(整数)に変換
 ・カウントエンコーディング
データ毎に各ラベルが登場する回数を変数として使用
 ・ラベルカウントエンコーディング
各変数のラベルを出現回数が多い順にランク付けし、そのランクを変数とする。
 ・ターゲットエンコーディング
ラベルごとに目的変数の統計量(通常は平均値)を計算しその値を変数として使用

 カテゴリ変数 (categorical variable)
 ・性別や血液型やアンケート票の選択肢などのカテゴリー
水準 (カテゴリ変数に含まれる値)
 ・カテゴリカル変数は データの尺度 によって2種類に分けれる。
名義尺度 データ(非順序データ(non-ordinal))
他と区別し分類(性別、血液など)
順序尺度 データ
順序に意味を持つ(1,2,3着、満足度など)
 ・順序尺度データのために開発されたデータ解析方法は名義尺度データには用いない。

 カテゴリカルデータ  (categorical data)
 ・物事の性質を数え上げる計数データ (count data)
性別、血液型、アンケート票の選択肢、郵便番号などなど

 MNIST データ
  (Mixed National Institute of Standards and Technology database)
 ・手書き文字認識のためのデータセット
入力:28×28(=784)ピクセルからなるグレースケール画像
出力: 0 から 9 までの ラベル
 ・4つのファイルで構成
    t10k-images-idx3-ubyte  検証用画像データ (10,000個)
  t10k-labels-idx1-ubyte  検証用ラベルデータ (10,000個)
  train-images-idx3-ubyte  学習用画像データ (60,000個)
  train-labels-idx1-ubyte  学習用ラベルデータ (60,000個)
 ・ラベルデータ
    offset type value description
  0000  32 bit integer  0x00000801(2049)  識別子(定数)
  0004  32 bit integer  60000 or 10000  ラベルデータの数
  0008  unsigned byte  0 ~ 9  1つ目のデータのラベル
  0009  unsigned byte  0 ~ 9  2つ目のデータのラベル
  ・・・・  ・・・・  ・・・・  ・・・・
  xxxx  unsigned byte  0 ~ 9  最後のデータのラベル
ラベルは、画像が何の数字を表すかの 0 から 9 までの数値
 ・画像データ
    offset type value description
  0000  32 bit integer  0x00000803(2051)  識別子(定数)
  0004  32 bit integer  60000 or 10000  画像データの数
  0008  32 bit integer  28  1画像あたりのデータ行数
  0012  32 bit integer  28  1画像あたりのデータ列数
  0016  unsigned byte  0 ~ 255  1つめの画像の1ピクセル目の値
  0017  unsigned byte  0 ~ 255  1つめの画像の2ピクセル目の値
  ・・・・  ・・・・  ・・・・  ・・・・
  xxxx  unsigned byte  0 ~ 255  最後の画像の784ピクセル目の値
ピクセルの値は、0から255までの値で、0が白,255が黒を表す。