MNIST database とは

MNISTデータベース(Modified National Institute of Standard and Technologyデータベース)は、様々な画像処理システムの訓練に一般的に使用される手書き数字の大きなデータベースです。このデータベースは、機械学習の分野でのトレーニングやテストにも広く使用されています。 NISTの元のデータセットからのサンプルを「再ミキシング」することによって作成されました。作成者はNISTの訓練データセットが米国国勢調査局の従業員から取られたので、試験データセットはアメリカの高校生から取られたものの、機械学習実験にはあまり適していないと感じました。さらに、NISTの白黒画像は、グレイスケールレベルを導入した28×28ピクセルバウンディングボックスとアンチエイリアスに適合するように正規化されました。
MNISTデータベースには、60,000のトレーニングイメージと10,000のテストイメージが含まれています。トレーニングセットの半分とテストセットの半分はNISTのトレーニングデータセットから取得され、残りのトレーニングセットとテストセットの残りの半分はNISTのテストデータセットから取得されました。最も低い誤り率を達成しようとする試みには、多くの科学論文がある。 1つの論文は、畳み込みニューラルネットワークの階層的システムを使用して、MNISTデータベースの誤り率を0.23%にすることを管理している。データベースの元の作成者は、テストされたメソッドのリストを保持しています。オリジナルの論文では、サポートベクターマシンを使用してエラー率0.8%を取得しています。 EMISTと呼ばれるMNISTに似た拡張データセットが、2017年に出版されました。これには、240,000のトレーニング画像と40,000の手書き数字のテスト画像が含まれています。