Vanishing gradient problem とは

機械学習において、消失勾配問題は、勾配に基づく学習方法および逆伝播を伴う人工ニューラルネットワークの訓練において見出される困難である。このような方法では、ニューラルネットワークの重みの各々は、訓練の各反復において現在の重みに関する誤差関数の偏導関数に比例した更新を受け取る。問題は、場合によっては、勾配が消えて小さくなり、効果的にその値が変化しないようにすることです。最悪の場合、これは、ニューラルネットワークをさらなるトレーニングから完全に停止させる可能性がある。問題の原因の一例として、双曲線正接関数などの従来の活性化関数は、範囲(0,1)に勾配を持ち、バックプロパゲーションは勾配をチェーンルールで計算します。これは、これらの小さな数のnを乗じてn層ネットワークの "フロント"層の勾配を計算するという効果をもたらします。つまり、フロント層が非常にゆっくりと訓練されている間に勾配(誤差信号)が指数関数的に減少します。
バックプロパゲーションにより、研究者は最初に監視された深い人工ニューラルネットワークを最初から訓練することができましたが、最初はほとんど成功しませんでした。 Hochreiterの1991年の卒業論文は、多くの階層化されたフィードフォワードネットワークだけでなく、再帰的なネットワークにも影響する「消失勾配問題」におけるこの失敗の理由を正式に特定した。後者は、非常に深いフィードフォワードネットワークにそれらを展開することによって訓練され、ネットワークによって処理される入力シーケンスの各時間ステップに対して新しいレイヤが作成される。
微分値が大きな値を取ることができる活性化関数が使用される場合、関連する爆発勾配問題に遭遇する危険性がある。