Bag-of-words model とは

bag-of-wordsモデルは、自然言語処理および情報検索(IR)で使用される単純化表現です。ベクトル空間モデルとも呼ばれます。このモデルでは、文章や文章などの文章は、文章や単語の順序を無視して複数形になっていて、その単語の袋(マルチセット)として表現されています。バッグオブワードモデルもコンピュータビジョンに使用されています。
bag-of-wordsモデルは、各単語の(出現頻度)が分類子を訓練するための特徴として使用される文書分類の方法で一般的に使用される。
言語学的文脈における「単語の袋」への早期の言及は、Zellig Harrisの1954年の流通構造に関する記事に見出すことができる。