Precision and recall とは

パターン認識、情報検索およびバイナリ分類では、精度(正の予測値とも呼ばれる)は検索インスタンス間の関連インスタンスの割合であり、リコール(感度とも呼ばれる)は合計で検索された関連インスタンスの割合関連するインスタンスの量したがって、精度とリコールの両方は、関連性の理解と尺度に基づいています。
写真の犬を認識するためのコンピュータプログラムが、12匹の犬およびいくつかの猫を含む写真において8匹の犬を特定すると仮定する。犬と同定された8のうち、5つは実際に犬(真陽性)であり、残りは猫(偽陽性)である。プログラムの精度は5/8で、リコールは5/12です。検索エンジンが30ページしか返さないうちに20ページしか関連性がなく、関連性のある40ページを返さない場合、その精度は20/30 = 2/3であり、リコールは20/60 = 1/3です。したがって、この場合、精度は「検索結果がどれくらい役に立つか」であり、「結果がどれほど完全であるか」が再現されます。
統計では、仮説がすべての項目が無関係である場合(仮説がサンプルサイズと比較して選択された数に基づいて受け入れられまたは拒否される場合)、タイプIおよびタイプIIのエラーの欠如はそれぞれ、最大精度)および最大リコール(偽陰性なし)。上記のパターン認識例は、8-5 = 3型I型エラーと12-5 = 7型II型エラーを含んでいた。精度は正確さまたは品質の尺度と見なすことができますが、リコールは完全性または量の尺度です。
簡単に言えば、精度が高いということは、アルゴリズムが関連性のない結果よりもかなり関連性の高い結果を返すことを意味し、高いリコールはアルゴリズムが関連する結果のほとんどを返したことを意味します。