アルゴリズム
 モデル
 回帰分析
 分類
 回帰
 分析
 ラベル付きデータ
 特徴量
 特徴選択
 正規化、標準化
 欠損値

 NN機能・要件
 NN構成・方式
 構成・方式など
 タスク
 導入
 Sample

 用語
 統計
 解析
 ハードウェア
 機械学習アルゴリズム
 ・学習と予測をどのように行うかを表す手順、方法など
 ・予測や判定の対象となる正解が存在する場合は教師有り学習
 ・予測や判定の対象となる正解が存在しない場合は教師無し学習
 ・教師無し学習は回帰や分類の問題には対応できない。

 機械学習モデル
 ・機械学習アルゴリズムにデータを処理させて出てくる結果
様々な目的に応じて、個別にモデルを作成する。
 ・同じアルゴリズムでもデータやパラメータが異なると、異なるモデル
 ・例、音声の文字起こし
作成するモデルは言語処理のモデル
モデルに音声データを入力すると、モデルはその音声のテキストを出力
期待通りの出力を得るためには、事前にモデルを十分にトレーニングする。

 回帰分析 (regression analysis)
 ・回帰による分析
回帰モデル
 ・ある変数が他の変数とどんな相関関係にあるのかを推定する統計学的手法
 ・目的変数説明変数を用いて予測、説明する。
与えられたデータから(連続的な)数値を予測する。
人の写った画像からその人の体重いくらか。
過去の実績から未来の値を予測する。
 ・線形回帰分析
訓練の際には、入力変数と目的変数がペアで準備されている。
目的変数(Y)と 説明変数(X)の関係をグラフにすると直線
線形回帰モデル
Y = β0 + β1*X1 + β1*X2 + ・・・ + βp*Xp + ε
Y = β0 + Xβ + ε  (ベクトル・行列記法)
目的変数 Y が説明変数 X の係数 β に対して線形
(線形回帰が「線形」である理由)
(Y = β0 + β1x + β2(xの2乗) + ε 、も係数βに対しては線形)
y = a + bx + ε 、は単回帰
単回帰分析 (目的変数に対して一つの説明変数)
最小二乗モデルを用いて回帰式を導出
重回帰分析 (目的変数に対して複数の説明変数)
最小二乗モデルを用いて回帰式を導出
リッジ回帰
ラッソ回帰
 ・非線形回帰分析
訓練の際には、入力変数と目的変数がペアで準備されている。
目的変数説明変数 の間に非線形な関係
非線形回帰モデル
ランダムフォレスト
サポートベクターマシン
ニューラルネットワーク
k近傍法

 分類 (classification)
 ・Y = f(X) というモデルを適用するとき、Y が離散であれば分類
 ・分類対象の固有な1つ以上の特性を数値化し、それに基づいて分類を行う。
与えられたデータがどのクラスに属するか、を分類する。
このとき、事前にラベル付けされた訓練データを用いる。
 ・統計的分類アルゴリズムは主にパターン認識システムなどで使われる。
出力はカテゴリ
 ・予測するクラス数が2クラスの場合、二項分類(二値分類)
 ・与えられた手書き数字を当てるなどは、多クラス分類
 ・分類アルゴリズム(分類器(classifier)、識別器)
線形分類器
ロジスティック回帰
単純ベイズ分類器
単純パーセプトロン
線形サポートベクターマシン
非線形分類器など
ブースティング
決定木
ニューラルネットワーク
サポートベクターマシン
k近傍法

 回帰 (regression)
 ・Y が連続値の時にデータに Y = f(X) というモデルを当てはめる事
Y:連続尺度の従属変数(目的変数
X:独立変数(説明変数
 ・単回帰重回帰分類
X が1次元ならば単回帰
X が2次元以上ならば重回帰
Y が離散(連続でない、とびとびの)ならば分類

 分析 (Analysis)
 ・ある物事を分解し、それらを成立させている成分、要素などを明らかにする。
 ・現状のデータ(数字、要素など)を知ることが分析の目的

 ラベル付きデータ
 ・ターゲットの回答がすでに分かっているデータ

 特徴量
 ・学習の入力に使う測定可能な特性
天気予報から売上を予測
最高気温、最低気温、降水量など
物件条件から家賃を予測
専有面積、築年数、最寄駅など

 特徴選択
 ・データの中からターゲットの予測により強い関連がある特徴を選択する。
予測精度の向上
学習にかかる時間を短縮
モデルの構造の単純化で、理解度向上
過学習を防ぐ
 ・参考

 正規化、標準化
 ・正規化
「各データの最小値との差」を「最大値と最小値の差」で割ったもの
横軸が0~1、説明変数のXの全てのデータ範囲が0~1に揃う。
 ・標準化
「各データの平均値との差」を標準偏差で割ったもの
横軸の中心が0、説明変数のXの全ての平均を0にし、標準偏差が1になる。

 欠損値  (missing value)
 ・データ内の変数で存在しない値
統計学的に正しいと理論付けられる欠損値処理を実装する事はより難しい。
 ・欠損値の種類
欠損値がランダムに発生 (MCAR、Missing Completely At Random)
欠損値の有無が別の変数に依存 (MAR、Missing At Random)
欠損値の有無がそのデータに依存 (MNAR、Missing Not At Random)
 ・欠損値の対処法
欠損の理由を調べる。
本来のデータからの誤差が少しでも小さくなるように欠損値を補完する。
MAR の場合は依存先の変数に注意を払いながら対処
単一代入法(Single Imputation Method)
多重代入法(Multiple Imputation Method)
完全情報最尤推定法(FIML、Full Maximum Likelihood Method)
欠損値をそのまま扱う。
欠損値を削除する。