Manually Annotated Sub-Corpus とは

MASCは、主にOpen American National Corpus(OANC)から書かれたテキストと転写された音声のバランスの取れたサブセットです。 OANCは、1990年以降に生産されたアメリカ英語の1500万語(および成長している)のコーパスであり、これらはすべてパブリックドメインにあるか、あるいは使用法や再配布の制限がありません。
すべてのMASCには、論理構造(見出し、セクション、段落など)、文章境界、関連する品詞タグ、浅い解析(名詞および動詞塊)、名前付きエンティティ(人、場所、組織、日付と時刻)、およびPenn Treebank構文です。追加の手作業で作成された、または検証された注釈は、FrameNetフレームエレメントのフルテキストアノテーションとWordNet 3.1センスタグ付きの100K +センテンスコーパスを含む、サブコーパスの一部についてMASCプロジェクトによって生成されたもので、1/10にもアノテーションが付けられていますFrameNetフレーム要素。他のさまざまな言語現象のためのサブコーパスの全部または一部のアノテーションは、PropBank、TimeBank、MPQAの意見、およびその他のものを含む他のプロジェクトによって提供されています。 MASCコーパス全体の共通参照注釈と句境界は、2016年末にリリースされる予定です。
114語のすべての出現についてのWordNet感覚注釈もMASC分布に含まれ、114語の各々の50-100回の出現のためのFrameNet注釈も含まれる。 WordNetおよびFrameNet注釈付きの文章も、MASC Sentence Corpusの一部として配布されます。