変数
 データの尺度
 相関関係
 多変量解析
 予測の手法
 要約の手法
 目的変数
 評価指標
 目的関数
 損失関数
 Embedding
 連鎖率

 NN機能・要件
 NN構成・方式
 構成・方式など
 タスク
 導入
 Sample

 機械学習
 統計
 解析
 ハードウェア
 データ分析の変数
 ・データ分析に用いるデータの項目
 ・質的変数(データ) と 量的変数(データ) に分類できる。
質的変数 は 名義尺度(データ) と 順序尺度 (データ) に分類できる。
量的変数 は 間隔尺度(データ) と 比(例)尺度 (データ) に分類できる。
 ・分析などの手法によっては使えない変数(尺度)がある。

 データの尺度 (物事を評価したり判断したりする時の物差し、基準)
 ・名義(nominal、公称)尺度データ(非順序データ(non-ordinal))
性別や血液のように、他と区別し分類
 ・順序 (ordinal) 尺度データ
満足度に関する選択肢のようにカテゴリーの順序に意味を持つ。
より上位のものには大きな数字(小さな数字)を与えるというルールが適用
各順位間の間隔は議論しない。
ランキング
 ・間隔尺度データ
順序とその差も定量化
差に意味がある。
温度、西暦、偏差値など
 ・比尺度データ
間隔尺度で且つゼロに意味があるもの。(間隔尺度で且つ順序尺度)
お金、人数など

 多変量解析
 ・多くの情報(変数のデータ)を分析者の仮説に基づき、関連性を明確にする統計手法
解析の結果、判りやすくなる。
 ・目的別 2 つの手法
予測の手法 (因果関係明確化の手法)
要約の手法 (類似関係明確化の手法)
 ・手順
データ収集 → 単変量解析 → 2変量解析 → 多変量解析
 ・データ収集 (データの尺度
変数変換、データ加工などを行う。
 ・単変量解析 (ひとつの対象にデータが1つしかない。)
異常値の除去、外れ値(データ)の処理などを行う。
 ・2 変量解析 ( 2 変量は 1 つの対象に 2 種類のデータがある。(身長と体重など))
相関関係、因果関係など
2 変量にして初めて明るみに出る外れ値(データ)の処理を行う。
相関直線上から見ればラインに乗っている離れた値は外れ値かどうかを検討する。
 ・多変量解析
結果が思わしくない場合は手順を繰り返す。

 相関関係
 ・ 2 変量(身長と体重 など)では 2 つの変数を扱う。
 ・散布図にすると 2 つの変数の関係性がよく判る。
身長と体重では、ある程度のばらつきの中には入っている。
相関が高い:ばらつきが少ない。
 ・一見相関がありそうに見えるが実は相関がない場合
層別すると関係がないという現象
クロス集計分析を行なう。
 ・相関がなさそうに見えるが実は相関がある場合
分布をよく見て適切に分析
 ・相関係数(相関の高さ)
1 から -1 の値を取る。0の場合 無相関
符号がプラスの場合は 正の相関
マイナスの場合は 負の相関

 予測の手法 (因果関係明確化の手法)
 ・複数の変数から何らかの結果を予測する。
どのような原因を作れば欲しい結果が得られるかを知る。
 ・説明変数目的変数
 ・同じ変数でも目的変数にも説明変数にもなり得る。

 要約の手法 (類似関係明確化の手法)
 ・複数の変数を新しい変数に要約する。
目的変数という概念はない。
因果関係が明らかになれば説明変数と目的変数に分けることもできる。

 目的変数
 ・結果側の変数、結果は原因に従属している(従属変数)。
目的変数という概念はない。
因果関係が明らかになれば説明変数と目的変数に分けることもできる。

 説明変数
 ・原因側のデータ、原因は独立している(独立変数)。
目的変数という概念はない。
因果関係が明らかになれば説明変数と目的変数に分けることもできる。

 評価指標 (評価関数)
 ・評価指標(評価関数)とは学習後に学習させたモデルの良さを測る指標

 目的関数
 ・モデルの学習で、学習中に最適化される関数
 ・微分できる必要がある。

 損失関数(Loss function)
 ・損失関数、コスト関数、誤差関数は目的関数の一部ともいえる。
 ・「正解値」と、モデルによる出力された「予測値」とのズレの大きさを計算する関数
 ・ニューラルネットワークでは最適な重みのパラメータを損失関数の指標として探す。
最も小さい値を示すニューラルネットワークがより適合している。
 ・主な損失関数
 平均二乗誤差
 交差エントロピー誤差

 Embedding (埋め込み)
 ・文、単語、文字など自然言語の構成要素に対し、空間ベクトルを与える。
Word Embedddingでは、各単語に対して固有のベクトルを与える
同じ階層の要素すべてが同じ空間内に配置され、
常に同じ次元数のベクトルで表現される。
機械学習に特徴量として容易に投入可能。
 ・One-hot表現 (1ビットだけ1で、他のビットは0で表現されるビット列)
表現したい単語の総体リストを作成し、各単語を表現する次元を準備する。
 ・カテゴリカルデータ

 連鎖率
 ・連鎖率(参考) を利用した誤差逆伝播法は、 数値微分方式より非常に速い。