Multimodal learning とは

現実世界の情報は、通常、異なるモダリティとして提供されます。例えば、画像は通常、タグとテキストの説明に関連付けられます。テキストには、記事の主なアイデアをより明確に表現するためのイメージが含まれています。異なるモダリティは、非常に異なる統計的性質によって特徴づけられる。例えば、画像は通常、ピクセル強度または特徴抽出器の出力として表され、テキストは離散単語カウントベクトルとして表される。異なる情報資源の異なる統計的性質のために、異なるモダリティ間の関係を発見することは非常に重要である。マルチモーダル学習は、異なるモダリティの共同表現を表現するのに適したモデルです。マルチモーダル学習モデルは、観察されたものを考慮して、欠落したモダリティを埋めることも可能である。マルチモーダル学習モデルは、2つの深いボルツマンマシンがそれぞれ1つのモダリティに対応しています。 2つのボルツマン機械の上に付加的な隠れ層を配置して、ジョイント表現を与える。