Automatic acquisition of lexicon とは

レキシコンの自動取得は、言語の複雑な形態レキシコンの開発に使用されるコンピュータ化されたプロセスである。レキシコンは、NLP(自然言語処理)のために不可欠であり、広範囲のパーサーには前提条件です。 2つの主な要件は、生のコーパスと言語の形態学的記述を表します。目的は、コーパス内で発生するすべての単語の説明に役立つ補題を提供することです。質の高いレキシコンを達成するためには、生成された補題を手作業で検証し、プロセス全体を何回か反復する必要があります。このプロセスは、オープン・ワード・クラス(例えば、名詞、形容詞、動詞)に焦点を当てている。閉クラス(例:前置詞、代名詞、数字)は除外されます。このメソッドは、スロバキア語、ロシア語、クロアチア語などの豊富な形態を持つ言語に適用できます。
スロバキア語に適用される、屈曲言語である自動取得は、屈折形態と誘導体形態に重点を置いています。この事実は、ユーザがレキシコン内の派生関係(例えば、形容詞、接頭語)に関する情報を見つけることを可能にする。たとえば、スロバキア語のkorpusovýはkorpus(engコーパス)の形容詞である。