Stemming とは

言語形態学および情報検索では、語幹は、語形変化した(または時々派生した)単語を、単語の幹、根本または根の形、一般的には書いた形に縮小するプロセスです。ステムは単語の形態学的根拠と同一である必要はない。このステム自体が有効なルートになっていなくても、関連する単語が同じステムにマップされていれば十分です。ステミングのアルゴリズムは、1960年代からコンピュータサイエンスで研究されてきました。多くの検索エンジンでは、同義語と同じ語幹を持つ語句を一種のクエリ拡張として扱います。これは集約と呼ばれる処理です。
単語を構成するコンピュータプログラムまたはサブルーチンは、ステミングプログラム、ステミングアルゴリズムまたはステマーと呼ばれてもよい。