CIFAR-10 とは

CIFAR-10データセット(Canadian Institute for Advanced Research)は、機械学習およびコンピュータビジョンアルゴリズムを訓練するために一般的に使用される画像の集まりです。機械学習の研究で最も広く使用されているデータセットの1つです。 CIFAR-10データセットには、10種類の異なるクラスで60,000個の32×32カラー画像が含まれています。 10種類のクラスは、飛行機、車、鳥、猫、鹿、犬、カエル、馬、船、トラックを表します。各クラスには6,000枚の画像があります。
写真のオブジェクトを認識するためのコンピュータアルゴリズムは、多くの場合、例によって学習する。 CIFAR-10は、コンピュータにオブジェクトの認識方法を教えるために使用できる一連のイメージです。 CIFAR-10の画像は低解像度(32×32)なので、このデータセットを使用することで、研究者は異なるアルゴリズムをすばやく試して、効果を確認することができます。さまざまな種類の畳み込みニューラルネットワークが、CIFAR-10の画像を認識するのに最適です。
CIFAR-10は、8千万の小さな画像データセットのラベル付きサブセットです。データセットが作成されると、学生はすべての画像にラベルを付けるために支払いを受けました。

Caltech 101 とは

Caltech 101は2003年9月に作成され、カリフォルニア工科大学のFei-Fei Li、Marco Andreetto、Marc 'Aurelio RanzatoおよびPietro Peronaによって編集されたデジタル画像のデータセットです。これは、コンピュータビジョンの研究と技術を促進することを目的としており、画像認識の分類と分類を含む技術に最も適しています。 Caltech 101は、合計9,146の画像を含み、101の別個のオブジェクトカテゴリ(顔、腕時計、アリ、ピアノなど)と背景カテゴリとの間で分割されている。画像には、各画像の輪郭を記述する注釈のセットと、表示用のMatlabスクリプトが用意されています。

FERET (facial recognition technology) とは

顔認識技術(FERET)プログラムは米国国防総省(Counter Doctor)のカウンタードラッグ技術開発プログラムオフィスの後援を受けました。 FERETプログラムの目標は、セキュリティ、インテリジェンス、法執行要員の職務遂行を支援するための自動顔認識機能を開発することでした。プログラムは、3つの主要な要素で構成されています。
 FERETデータベースの収集FERET評価の実施
後援された研究の目標は、顔認識アルゴリズムを開発することでした。 FERETデータベースは、スポンサード・リサーチとFERET評価をサポートするために収集されました。 FERETの評価は、アルゴリズム開発の進捗状況を測定し、将来の研究方向を特定するために実施された。

FERET database とは

FERETデータベースは、顔認識システムの評価に使用されるデータセットです。顔認識技術(FERET)プログラムは、国防総省高度研究プロジェクト庁(DARPA)と国立標準技術研究所(NIST)によって管理されています。 1993年12月から1996年8月の間に顔画像のデータベースが収集されました。2003年にDARPAはこれらの画像の高解像度、24ビットカラーバージョンをリリースしました。テストされたデータセットには、856人を代表する静止画像が2,413枚含まれています。
FERETプログラムは、アルゴリズム開発者から独立して収集された顔画像の大きなデータベースを確立するために準備されました。 George Mason UniversityのHarry Wechsler博士は、このデータベースの収集を指示するために選ばれました。データベースの収集は、Wechsler博士とPhillips博士の協力によるものでした。

LabelMe とは

LabelMeは、MITコンピュータサイエンスおよび人工知能研究所(CSAIL)によって作成されたプロジェクトであり、アノテーションを含むデジタル画像のデータセットを提供します。データセットは動的で、自由に使用することができ、公的な貢献に開放されています。 LabelMeの最も応用可能な用途は、コンピュータビジョン研究である。 2010年10月31日現在、LabelMeには187,240の画像、62,197の注釈付き画像、および658,992のラベル付きオブジェクトがあります。

Textures: A Photographic Album for Artists and Designers とは

テクスチャ:アーティストとデザイナーの写真アルバムはPhil Brodatzの112テクスチャの写真の要約です。それは1966年にDover Publicationsによって出版されました。テクスチャ画像はグレースケールであり、制御された照明条件下で撮影される。それぞれのテクスチャには、コンテンツとそれが撮影された条件、および一意の識別子の簡単な説明が付いています。

ImageNet とは

ImageNetプロジェクトは、ビジュアルオブジェクト認識ソフトウェアの研究で使用するために設計された大きなビジュアルデータベースです。 1400万を超えるURLの画像がImageNetによって手書き注釈されて、どのようなオブジェクトが描かれているかを示す。少なくとも100万の画像において、境界ボックスも提供される。 ImageNetには20,000以上のカテゴリがあります。 「バルーン」や「ストロベリー」などの典型的なカテゴリには、数百の画像が含まれています。サードパーティの画像URLのアノテーションのデータベースは、ImageNetから直接自由に入手できます。ただし、実際のイメージはImageNetの所有ではありません。 2010年以来、ImageNetプロジェクトでは、年1回のソフトウェアコンテスト、ILSVRC(ImageNet Large Scale Visual Recognition Challenge)が開催されています.ILSVRCでは、ソフトウェアプログラムがオブジェクトやシーンを正しく分類および検出するために競争します。 ImageNetチャレンジでは、重複していない1,000以上のクラスの「トリミング」リストが使用されます。
ImageNet Challengeを解決する際の劇的な2012年の飛躍は、2010年の深い学習革命の始まりと広く考えられています。「突然AIコミュニティだけでなく技術業界全体に注目し始めました。

NTU RGB-D dataset とは

NTU RGB-D(南陽工科大学の赤青緑および深さ情報)データセットは、ラベル付きの人間活動の記録を含む大きなデータセットです。このデータセットは、各サンプルのデータの4つのモダリティ(RGBビデオ、深度マップシーケンス、3D骨格データ、赤外線ビデオ)を含む56,880個のアクションサンプルで構成されています。
データセットは60個のラベル付きアクションで構成されています。具体的には、水を飲み、食事/スナックを食べ、歯を磨く、髪をブラッシングする、落とす、ピックアップする、座る、着座する、座る、立てる、読む、書く、紙を裂く、ジャケットを着る、靴を脱ぐ、靴を脱ぐ、眼鏡をかける、メガネをはずす、帽子/キャップをはめる、帽子をはずす、喝采する、手を振る、何かを蹴る、ポケットの中に何かを入れる/ポケットから何かを取り出す(1フィートジャンプする)、飛び降りる、電話をかける/電話をかける、電話/タブレットで遊ぶ、キーボードで入力する、指で何かを指す、セルフリーを撮る、時計を確認する、くしゃみ、鼻、頭を振る、顔を拭く、敬礼、一緒に手のひらを置く、止めを言う)、くしゃみ/咳、肩こり、落ちる、頭痛(頭痛)、触角(腹痛/心臓痛) )、タッチバック(腰痛)、タッチネック(首痛)、吐き気または嘔吐状態、ファン(手または紙)/温かい気分、他の人を殴る/叩く他人に押し付ける、他人に指をかける、他の人に何かを与える、他の人のポケットに触れる、ハンドシェイクする、お互いに歩いて歩く、離れて歩く

MNIST database とは

MNISTデータベース(Modified National Institute of Standard and Technologyデータベース)は、様々な画像処理システムの訓練に一般的に使用される手書き数字の大きなデータベースです。このデータベースは、機械学習の分野でのトレーニングやテストにも広く使用されています。 NISTの元のデータセットからのサンプルを「再ミキシング」することによって作成されました。作成者はNISTの訓練データセットが米国国勢調査局の従業員から取られたので、試験データセットはアメリカの高校生から取られたものの、機械学習実験にはあまり適していないと感じました。さらに、NISTの白黒画像は、グレイスケールレベルを導入した28×28ピクセルバウンディングボックスとアンチエイリアスに適合するように正規化されました。
MNISTデータベースには、60,000のトレーニングイメージと10,000のテストイメージが含まれています。トレーニングセットの半分とテストセットの半分はNISTのトレーニングデータセットから取得され、残りのトレーニングセットとテストセットの残りの半分はNISTのテストデータセットから取得されました。最も低い誤り率を達成しようとする試みには、多くの科学論文がある。 1つの論文は、畳み込みニューラルネットワークの階層的システムを使用して、MNISTデータベースの誤り率を0.23%にすることを管理している。データベースの元の作成者は、テストされたメソッドのリストを保持しています。オリジナルの論文では、サポートベクターマシンを使用してエラー率0.8%を取得しています。 EMISTと呼ばれるMNISTに似た拡張データセットが、2017年に出版されました。これには、240,000のトレーニング画像と40,000の手書き数字のテスト画像が含まれています。

VGG Image Annotator とは

VGG Image Annotator(VIA)は画像内の領域を定義し、それらの領域のテキスト記述を作成するために使用できる画像注釈ツールです。 VIAは、Visual Geometry Groupで開発され、BSD-2条項ライセンスの下でリリースされたオープンソースプロジェクトです。このような画像領域および記述は、機械学習アルゴリズムの監督訓練に有用である。