Connectionist temporal classification とは

接続主義時間分類(CTC)は、タイミングが変動するシーケンス問題に取り組むために、LSTMネットワークなどのリカレントニューラルネットワーク(RNN)をトレーニングするための、ニューラルネットワーク出力および関連するスコアリング関数の一種である。オンライン手書き認識や音声音声の音素認識などの作業に使用できます。 CTCはアウトプットとスコアリングを指し、基礎をなすニューラルネットワーク構造から独立しています。 2006年に導入されました。
入力は一連の観測値であり、出力はブランク出力を含む一連のラベルです。トレーニングの難しさは、ラベルよりもさらに多くの観察があることに由来します。例えば、音声オーディオでは、単一の音素に対応する複数のタイムスライスが存在し得る。観測されたシーケンスとターゲットラベルとの位置合わせがわからないので、各タイムステップでの確率分布を予測する。 CTCネットワークは、連続的な出力(例えばsoftmax)を有し、これは、ラベルの確率をモデル化するために訓練によって適合される。 CTCは境界とタイミングを学習しようとしません。ラベル配列は、アラインメントだけが異なり、空白を無視する場合、同等と見なされます。等価なラベル配列は、多くの点で発生する可能性があり、スコアリングは重要ではありません。幸運なことに、効率的な前方 – 後方アルゴリズムがあります。
ニューラルネットワークの重みを更新するために、バックプロパゲーションアルゴリズムと共にCTCスコアを使用することができます。
CTCに適合したニューラルネットワークへの代替アプローチには、隠れマルコフモデル(HMM)が含まれる。