外れ値

公開日 2008.10.06 三菱UFJリサーチ&コンサルティング株式会社



●多数のデータの中で他のデータから大きく離れている値のこと。外れ値があると、一般的なデータ分析を行っても結果が不適切に出てくる場合がある。例えば、外れ値を含んだまま平均値を算出すると、その影響を受けて平均値が高め(低め)になってしまう。

●ただし、外れ値だからという理由で安易に集計対象から除くと、一部のデータのみを対象にした不適切な分析となってしまう。したがって、適切なデータ分析を行ううえで、外れ値を見つけること、そして、外れ値が見つかった場合に適切な措置をとることは、重要なポイントとなる。

●外れ値を見つける方法としては、散布図を作成して、そこから孤立しているデータを探すことが挙げられる。
そして、外れ値が見つかった場合、それが他のデータから離れている原因を探る。原因がイレギュラーなものであれば、その外れ値を分析対象から除外する措置をとる。

●また、外れ値の影響を受けやすい平均値ではなく、中位数や最頻値を代表値として使用することも効果的である。


■関連用語
 代表値
 平均値
 中位数
 最頻値