用語

変数
データの尺度
相関関係
多変量解析
予測の手法
要約の手法
目的変数
評価指標
目的関数
損失関数
Embedding
連鎖率
ノイズ・バイアス

NN機能・要件
NN構成・方式
構成・方式など
タスク
導入
Sample

機械学習
統計
解析
ハードウェア データ分析の変数
・データ分析に用いるデータの項目
・質的変数（データ）と量的変数（データ）に分類できる。
質的変数は名義尺度（データ）と順序尺度（データ）に分類できる。
量的変数は間隔尺度（データ）と比（例）尺度（データ）に分類できる。
・分析などの手法によっては使えない変数（尺度）がある。

データの尺度 （物事を評価したり判断したりする時の物差し、基準）
・名義（nominal、公称）尺度データ（非順序データ（non-ordinal））
性別や血液のように、他と区別し分類
・順序 (ordinal) 尺度データ
満足度に関する選択肢のようにカテゴリーの順序に意味を持つ。
より上位のものには大きな数字（小さな数字）を与えるというルールが適用
各順位間の間隔は議論しない。
ランキング
・間隔尺度データ
順序とその差も定量化
差に意味がある。
温度、西暦、偏差値など
・比尺度データ
間隔尺度で且つゼロに意味があるもの。（間隔尺度で且つ順序尺度）
お金、人数など

多変量解析
・多くの情報（変数のデータ）を分析者の仮説に基づき、関連性を明確にする統計手法
解析の結果、判りやすくなる。
・目的別 2 つの手法
予測の手法（因果関係明確化の手法）
要約の手法（類似関係明確化の手法）
・手順
データ収集 → 単変量解析 → 2変量解析 → 多変量解析
・データ収集（データの尺度）
変数変換、データ加工などを行う。
・単変量解析（ひとつの対象にデータが1つしかない。）
異常値の除去、外れ値（データ）の処理などを行う。
・2 変量解析（ 2 変量は 1 つの対象に 2 種類のデータがある。（身長と体重など））
相関関係、因果関係など
2 変量にして初めて明るみに出る外れ値（データ）の処理を行う。
相関直線上から見ればラインに乗っている離れた値は外れ値かどうかを検討する。
・多変量解析
結果が思わしくない場合は手順を繰り返す。

相関関係
・ 2 変量（身長と体重など）では 2 つの変数を扱う。
・散布図にすると 2 つの変数の関係性がよく判る。
身長と体重では、ある程度のばらつきの中には入っている。
相関が高い：ばらつきが少ない。
・一見相関がありそうに見えるが実は相関がない場合
層別すると関係がないという現象
クロス集計分析を行なう。
・相関がなさそうに見えるが実は相関がある場合
分布をよく見て適切に分析
・相関係数（相関の高さ）
1 から -1 の値を取る。0の場合無相関
符号がプラスの場合は正の相関
マイナスの場合は負の相関

予測の手法 （因果関係明確化の手法）
・複数の変数から何らかの結果を予測する。
どのような原因を作れば欲しい結果が得られるかを知る。
・説明変数と目的変数
・同じ変数でも目的変数にも説明変数にもなり得る。

要約の手法 （類似関係明確化の手法）
・複数の変数を新しい変数に要約する。
目的変数という概念はない。
因果関係が明らかになれば説明変数と目的変数に分けることもできる。

目的変数（response variable）
・因果関係における「結果となる変数」（簡潔に表現すると「結果」）
目的変数の対義語は説明変数
・結果変数（outcome variable、別名）
結果側の変数。
・従属変数（dependent variable、別名）
結果は原因に従属している。
・基準変数（criterion variable、別名）
・被説明変数（explained variable、別名）

説明変数（explanatory variable）
・ある現象や値を説明する変数、又は結果に影響を与えている要因を示す変数
・因果関係における「原因となる変数」（簡潔に表現すると「原因」）
説明変数の対義語は目的変数
・予測変数（predictor variable、別名）
・独立変数（independent variable、別名）

評価指標（評価関数）
・評価指標（評価関数）とは学習後に学習させたモデルの良さを測る指標

目的関数
・モデルの学習で、学習中に最適化される関数
・微分できる必要がある。

損失関数（Loss function）
・損失関数、コスト関数、誤差関数は目的関数の一部ともいえる。
・「正解値」と、モデルによる出力された「予測値」とのズレの大きさを計算する関数
・ニューラルネットワークでは最適な重みのパラメータを損失関数の指標として探す。
最も小さい値を示すニューラルネットワークがより適合している。
・主な損失関数
平均二乗誤差
交差エントロピー誤差

Embedding （埋め込み）
・文、単語、文字など自然言語の構成要素に対し、空間ベクトルを与える。
Word Embedddingでは、各単語に対して固有のベクトルを与える
同じ階層の要素すべてが同じ空間内に配置され、
常に同じ次元数のベクトルで表現される。
機械学習に特徴量として容易に投入可能。
・One-hot表現（1ビットだけ1で、他のビットは0で表現されるビット列）
表現したい単語の総体リストを作成し、各単語を表現する次元を準備する。
・カテゴリカルデータ

連鎖率
・連鎖率（参考）を利用した誤差逆伝播法は、数値微分方式より非常に速い。

ノイズとバイアス
・ノイズはばらつき
ノイズは軽視されることが多い。
ノイズの影響がとても大きい場合もある。
ランダム性のばらつきを修正するのは難しい。
・バイアスは偏り
バイアスは重視されることが多い。
比較的分かりやすい因果関係
規則性を正せば当たる。
分かりやすい因果関係も、実際には役に立たないこともある。
・ノイズを有効化（ノイズを少なく）するには
あるべき姿を理解しノイズを増やさない。
対象範囲など
ルールを決める。
評価基準の曖昧さをなくす。


All Rights Reserved. Copyright (C) ITCL