| Index A I | 用語 |
|
データ分析の変数 ・データ分析に用いるデータの項目 ・質的変数(データ) と 量的変数(データ) に分類できる。 質的変数 は 名義尺度(データ) と 順序尺度 (データ) に分類できる。 量的変数 は 間隔尺度(データ) と 比(例)尺度 (データ) に分類できる。・分析などの手法によっては使えない変数(尺度)がある。 データの尺度 (物事を評価したり判断したりする時の物差し、基準) ・名義(nominal、公称)尺度データ(非順序データ(non-ordinal)) 性別や血液のように、他と区別し分類・順序 (ordinal) 尺度データ 満足度に関する選択肢のようにカテゴリーの順序に意味を持つ。 より上位のものには大きな数字(小さな数字)を与えるというルールが適用 各順位間の間隔は議論しない。 ランキング・間隔尺度データ 順序とその差も定量化 差に意味がある。 温度、西暦、偏差値など・比尺度データ 間隔尺度で且つゼロに意味があるもの。(間隔尺度で且つ順序尺度) お金、人数など多変量解析 ・多くの情報(変数のデータ)を分析者の仮説に基づき、関連性を明確にする統計手法 解析の結果、判りやすくなる。・目的別 2 つの手法 予測の手法 (因果関係明確化の手法) 要約の手法 (類似関係明確化の手法)・手順 データ収集 → 単変量解析 → 2変量解析 → 多変量解析・データ収集 (データの尺度) 変数変換、データ加工などを行う。・単変量解析 (ひとつの対象にデータが1つしかない。) 異常値の除去、外れ値(データ)の処理などを行う。・2 変量解析 ( 2 変量は 1 つの対象に 2 種類のデータがある。(身長と体重など)) 相関関係、因果関係など 2 変量にして初めて明るみに出る外れ値(データ)の処理を行う。 相関直線上から見ればラインに乗っている離れた値は外れ値かどうかを検討する。・多変量解析 結果が思わしくない場合は手順を繰り返す。相関関係 ・ 2 変量(身長と体重 など)では 2 つの変数を扱う。 ・散布図にすると 2 つの変数の関係性がよく判る。 身長と体重では、ある程度のばらつきの中には入っている。 相関が高い:ばらつきが少ない。・一見相関がありそうに見えるが実は相関がない場合 層別すると関係がないという現象 クロス集計分析を行なう。・相関がなさそうに見えるが実は相関がある場合 分布をよく見て適切に分析・相関係数(相関の高さ) 1 から -1 の値を取る。0の場合 無相関 符号がプラスの場合は 正の相関 マイナスの場合は 負の相関予測の手法 (因果関係明確化の手法) ・複数の変数から何らかの結果を予測する。 どのような原因を作れば欲しい結果が得られるかを知る。・説明変数 と 目的変数 ・同じ変数でも目的変数にも説明変数にもなり得る。 要約の手法 (類似関係明確化の手法) ・複数の変数を新しい変数に要約する。 目的変数という概念はない。 因果関係が明らかになれば説明変数と目的変数に分けることもできる。目的変数(response variable(応答変数)) ・因果関係における「結果となる変数」(簡潔に表現すると「結果」) ランキング学習では、説明変数によってどのように順位が変わるか。 目的変数の対義語は説明変数・結果変数(outcome variable、別名) 結果側の変数。・従属変数(dependent variable、別名) 結果は原因に従属(依存)している。・基準変数(criterion variable、別名) ・被説明変数(explained variable、別名) ・応答変数(response variable、別名) 説明変数(explanatory variable) ・ある現象や値を説明する変数、又は結果に影響を与えている要因を示す変数 ・因果関係における「原因となる変数」(簡潔に表現すると「原因」) 説明変数の対義語は目的変数・予測変数(predictor variable、別名) ・独立変数(independent variable、別名) 評価指標 (評価関数) ・評価指標(評価関数)とは学習後に学習させたモデルの良さを測る指標 目的関数(Objective Function) ・与えられた問題を解決するために、最大化または最小化したい対象を数式で表現したもの ・機械学習において、モデルの予測と実際の値との誤差を最小化する問題の場合 誤差(損失)を計算する式が目的関数(損失関数) モデルの学習で、学習中に最適化される関数 微分できる必要がある。・損失関数、コスト関数、誤差関数は目的関数の一部ともいえる。 コストを最小化する問題の場合、総コストを計算する式が目的関数損失関数(Loss function) ・「正解値」と、モデルによる出力された「予測値」とのズレの大きさを計算する関数 ・ニューラルネットワークでは最適な重みのパラメータを損失関数の指標として探す。 最も小さい値を示すニューラルネットワークがより適合している。・主な損失関数 平均二乗誤差 交差エントロピー誤差Embedding (埋め込み) ・文、単語、文字など自然言語の構成要素に対し、空間ベクトルを与える。 Word Embedddingでは、各単語に対して固有のベクトルを与える 同じ階層の要素すべてが同じ空間内に配置され、 常に同じ次元数のベクトルで表現される。 機械学習に特徴量として容易に投入可能。・One-hot表現 (1ビットだけ1で、他のビットは0で表現されるビット列) 表現したい単語の総体リストを作成し、各単語を表現する次元を準備する。・カテゴリカルデータ 連鎖率 ・連鎖率(参考) を利用した誤差逆伝播法は、 数値微分方式より非常に速い。 予測誤差(機械学習モデルの予測誤差) ・主にバイアス(Bias)、バリアンス(Variance)、ノイズ(Noise)の3つの要素に分けられる。 バイアス(Bias) ・モデルの平均的な予測値が真の値からどれだけズレ(誤差、偏り)ているかを示す指標 バイアスは重視されることが多い。バリアンス(Variance) ・訓練データセットによってモデルの予測値がどの程度ばらつく(分散)かを示す指標 ランダム性のばらつきを修正するのは難しい。バイアスとバリアンス ・2つは互いにトレードオフの関係 単純なモデル:バイアスは大きいが、バリアンスは小さい傾向がある。 複雑なモデル:バイアスは小さいが、バリアンスは大きい傾向がある。・バランスを取り、汎化誤差(未知のデータに対する誤差)を最小限に抑えることが重要 ノイズ(Noise) ・一貫性のないばらつき データ自体に含まれる本質的なばらつきや誤差、測定誤差など。 ノイズは軽視されることが多い。 ノイズの影響がとても大きい場合もある。 ランダム性のばらつきを減らすのは難しい。ノイズとバイアス ・ノイズを有効化(ノイズを少なく)するには あるべき姿を理解しノイズを増やさない。 対象範囲など ルールを決める。 評価基準の曖昧さをなくす。 |
| All Rights Reserved. Copyright (C) ITCL | |