大規模画像データセットを用いた自動画像アノテーション

研究用メモ

画像認識に関する研究用メモ

任意の画像に映ってい映っている物やシーンを自動的に理解するために、画像にタグを自動手に付けていく手法が求められている。
自動画像アノテーションの定義は、タグがついていない画像に対して、ふさわしいタグを複数付けていく手法のこと。
画像中の特定のもの、たとえば、猫を見つけるなら、「特定物体認識」、何が映っているかを複数見つけるなら、「一般物体認識」と分けて議論される。

自動アノテーション処理の流れ
1.画像とそれに付随するタグのペアデータベースの構築
2.画像とタグの特徴抽出
3.画像とタグの関係モデルの構築
4.モデルから新規画像へのふさわしいタグ推定
が処理の流れ。

画像の自動タグつけ用データセットをチェックしておく。

自動アノテーション手法のアルゴリズム評価用に用意されたデータセット

corel5K

例が載っている。Humanが画像に付けたタグと、開発したアノテーションアルゴリズム semantic multi-class labeling (SML) で自動で付けたタグが見比べられる。
http://www.svcl.ucsd.edu/projects/imgnote/eg_annotation.htm
データとタグがダウンロードできるかと思ったら、問い合わせないとダメなよう。
画像の元データはcorelの画像CDで、そこに人力でタグつけをしたもの。
corel5k:5000枚の画像に371種類のタグ
corel30k:31695枚の画像に1035種類のタグ
問い合わせてからもらうらしい。
と思ったら、corel5k.rar というファイルがsourceforgeにあった。
http://sourceforge.jp/projects/sfnet_mulan/downloads/datasets/corel5k.rar/


ESP Game
画像とタグのセットの作成をゲームにして人にやらせる。
ネットでの対戦ゲーム。2人をランダムに選んで対戦させる。2人には同じ絵を見せて、絵に描かれたものを当てるのだが、お互いに相手が何を書くかを想像して、できるだけ同じ答えになるように仕向ける。同じ答えを書くとポイントをもらえる。外れたらポイントはもらえない。相手の心を読む、ということで、エスパーなんだろう。これで、人力で、絵に対するできるだけ共通の概念を示すタグが集まる、という算段。
http://www.gwap.com/gwap/gamesPreview/espgame/

データはどこからとれるのだろう?


caltech101,caltech256
http://www.vision.caltech.edu/Image_Datasets/Caltech101/


tinyimages
http://groups.csail.mit.edu/vision/TinyImages/

タグはwordnetに登録されているものを使っている。Visual Disctionaryなるものになってる。wordnetからのキーワードで画像をグーグルの画像検索で拾って、左に画像を並べる。右にはその平均画像を表示している。正しいと思う画像を訪問者にクリックさせている。
80M枚(32x32)のカラー画像データセットが取れる。非常にでかい。画像は227G、タグデータは57Gなど。データにはMatlabスクリプトでアクセスする。全部で400GBのデータサイズ。
http://horatio.cs.nyu.edu/mit/tiny/data/index.html


imagenet 
Amazon Mechanical Turk(アマゾンメカニカルターク) 機械仕掛けのトルコ人の意味だそうだ。

http://www.image-net.org/
Wordnetに登録されている名詞で画像検索した結果を人力でタグつけさせたもの。タグ付けには、
https://www.mturk.com/mturk/welcome
に仕事を出して、やらせた、らしい。
データセットをダウンロードできるが、それ以外の方法が多数用意されている点が特徴
書く画像は、URLで呼び出せる。
SIFT(画像特徴量の一種)が呼び出せる。http://www.image-net.org/download-features
画像中の注目オブジェクトを囲ったもの(bounding boxes)http://www.image-net.org/download-bboxes
APIも用意されている。
ただのデータセット置き場、ではなく、Webサービスを作る上でも面白い特徴が出ている。