Document-term matrix とは

文書用語行列または用語 – 文書行列は、文書集合内で発生する用語の頻度を記述する数学的行列である。ドキュメント用語行列では、行はコレクション内のドキュメントに対応し、列は用語に対応します。行列の各エントリが取るべき値を決定するためのさまざまなスキームがあります。このような方式の1つはtf-idfである。それらは自然言語処理の分野において有用である。