ECCV'12とCVPR'12の特定物体認識関連の論文にひたすら1行説明（所感）を付けてみた

去年末のCVアドベントカレンダーでやろうと思って力尽きてたのを今更公開。BMVC'12はやらないかも。CVPapersに載っているタイトルから変わっている論文が結構あった。理解度と好みで分量が違います。

ECCV'12

Efficient Discriminative Projections for Compact Binary Descriptors
- Haar-like特徴のようにスケール・場所の違うboxフィルタまたはガウスフィルタの応答の線形和＋signでバイナリ特徴を作る際の重みを学習。
Comparative Evaluation of Binary Features
- detectorとしてHarris, MSER, FAST, ORB, BRISK, SURF, SIFT、descriptorとしてBRIEF, ORB, BRISK, SIFT, SURFを組み合わせた際のパフォーマンス評価。
Descriptor Learning Using Convex Optimisation
- descriptorの改善。DAISYのような特徴領域の配置と、特徴ベクトルの次元削減をregularized dual averagingで最適化。
Match Graph Construction for Large Image Databases
- 画像集合から、同一ランドマーク等が共通に写っている画像間にリンクが貼られているようなグラフを効率的に作りたい。ラベル伝播のアイディアで、少数のリンクから徐々にリンクの検証→ラベル伝播を行うことで効率的にグラフを構築する。
MatchMiner: Efficient Spanning Structure Mining in Large Image Collections
- 画像集合から、同一ランドマーク等が共通に写っている画像間にリンクが貼られているようなグラフを効率的に作りたい。関連フィードバックとクエリ拡張で画像検索結果を高精度化し、更に検索結果のランク情報を類似度のスコアとして利用することを提案。
Size Matters: Exhaustive Geometric Verification for Image Retrieval
- Googleから。閾値以上のスコア（対応点数）を持つリファレンス全てに対して幾何検証を効率的に行う。メインは文書検索における転置インデックスベースのtop-k検索に利用されるDocument at a Time (DAAT)とTerm at a Time (TAAT)を画像検索へ応用した際の評価。DAATとTAATは転置インデックスとTop k-query を参考に。DAATを実現する効率的なデータ構造counting min-tree (CMT)が新規性？
Negative evidences and co-occurences in image retrieval: the benefit of PCA and whitening
- BoVWのベクトルを平均から引くことで特定のVWが同時に出現しないことを画像類似度に反映する。その後BoVWのベクトルに対しPCA+パワー正規化＋L2正規化により特徴ベクトルを生成。更に複数のボキャブラリーを利用することも提案。
TreeCANN - k-d tree Coherence Approximate Nearest Neighbor algorithm
- 2つの画像間の全てのパッチをマッチング。AryaのANNによる近傍探索後、結果を周囲のパッチにpropagate（正解パッチの周囲のパッチも同じ幾何関係にある可能性が高い）。
WaSH: Weighted alpha-Shapes for Local Feature Detection
- Edgeベースのdetector？
A Convolutional Treelets Binary Feature Approach to Fast Keypoint Recognition
- FERNと同様にランダム射影で変換したパッチ群（の特徴）を特徴点と紐付けるが、射影した際のパラメータとバイナリ特徴を1:1で保持しておく。Convolutional Treelets Binary Featureと呼ばれるニューラルネットの出力を二値化して生成される特徴を利用。色々自明な気がする。バイナリ特徴のsub-signatureがLSHのハッシュ関数として使えるって、それLSHそのものだし…
KAZE Features
- SIFT detectorにおけるガウシアンフィルタの代わりにnonlinear diffusion filtering（バイラテラルフィルタ的な効果）を利用。コード有り。 kaze 風なのはAISTでのインターンの結果？！
Attribute Discovery via Predictable Discriminative Binary Codes
- バイナリ特徴ベクトルを、多クラスをうまく分類し、マージンが大きくなるような超平面で特徴ベクトル空間部分割するように学習する。大域解は得られないのでblock coordinate descentで最適化。
Improving Image-Based Localization by Active Correspondence Search
- 大量の3次元上の特徴点に対し、カメラ画像を入力としてカメラ位置を推定する問題。特徴ベクトル空間でのマッチングと、3D空間でのマッチングをうまく融合。

CVPR'12

Supervised Hashing with Kernels (CVPR'12)
- Hashing with graphsの人。主にクラス分類を目的とし、同じクラス間のハミング距離を小さく、異なるクラス間のハミング距離を大きくするようなハッシュ関数を学習。バイナリ特徴間のハミング距離を、バイナリ特徴間の内積で等価表現することで目的関数をシンプルに。
Progressive Graph Matching: Making a Move of Graphs via Probabilistic Voting (CVPR'12)
- graph matchingとgraph progressionを繰り返し行うことで高精度なグラフマッチングを行う（？）
Computing Nearest-Neighbor Fields via Propagation-Assisted KD-Trees
- PatchMatchの拡張。2枚の画像間のピクセルレベルでの対応を求める際に、右の画像の各ピクセルの特徴ベクトルがkd-treesに格納されているとする。あるピクセル間で対応が取れた際に、従来は対応の取れた右の画素同士も類似しているという仮定のもとそれらが対応が取れるか検証していた。提案手法では右の画素と同じleafに登録されている（空間的に近いとは限らない）特徴ベクトル全てを追加の検証対象とすることで打ち切りを高速化する。
QsRank: Query-sensitive Hash Code Ranking for Effcient e-neighbor Search (CVPR'12)
- PCA＋signのハッシュ関数による特徴量ベクトルのバイナリ化。range searchをターゲットとし、クエリ特徴はバイナリ化せずにハッシュ関数の超平面までの距離を利用する。特に、クエリからハッシュを定義する超平面までの距離がε以上あれば、そのハッシュにより定義されるビットが異なるリファレンス特徴までの距離は絶対にε以上となることを利用する。【関連】"Asymmetric Hamming Embedding," ACMMM'11.
Three things everyone should know to improve object retrieval (CVPR'12)
- (1)RootSIFT: SIFTの特徴ベクトルをL1正規化後、各次元をルート。こうしてできた特徴ベクトルの二乗距離を利用すると、L1正規化後の特徴ベクトルに対しヒストグラム間の類似度を測るのにより適切なヘリンガーカーネルを適用しているのに等しい。変換後の特徴ベクトルは既存のパイプラインにそのまま入力できることが大きな利点。(2)クエリ拡張時に、検索結果の上位をpositive、下位をnegativeとして線形SVMを学習し、識別面からの符号付き距離を利用してリランキングを行う。(3)データベース画像について、同一オブジェクトが写っている画像の特徴を追加する既存手法に対し、画像全体の特徴を追加するのではなく、同一オブジェクトが写っている矩形領域のみの特徴を追加することでprecisionの低下を防ぐ。
D-Nets: Beyond Patch-Based Image Descriptors (CVPR'12)
- 特徴点間のエッジを記述してマッチング。コード有り。 D-Nets
Spherical Hashing (CVPR'12)
- ハッシュベースの近似最近傍探索手法。pivotの点との距離が閾値以下であれば1、閾値より大きければ0となるハッシュと、点の座標と閾値を最適化する手法を提案。
Mobile Product Search with Bag of Hash Bits and Boundary Reranking (CVPR'12)
- PCA＋signのバイナリ特徴をハッシュとして利用＆複数ハッシュテーブル＆multi-probe（＃普通すぎてnoveltyが分からない）＋物体のboundaryの検証でreranking.
Object retrieval and localization with spatially-constrained similarity measure and k-NN re-ranking (CVPR'12)
- weak geometric consistency系。マッチングの投票をリファレンス毎の離散化された(x,y)座標へ行う（検索対象オブジェクトの中心座標へのハフ変換）。また、full geometric verification後の検索結果の上位N件を更にクエリとして検索を行い、その結果ランキングリスト群を利用してrerankingを行う（クエリ拡張の一種）。
Scalable $k$-NN graph construction for visual descriptors (CVPR'12)
- データベース中の各高次元ベクトルについてk近傍を求めておくk近傍グラフの正確かつ効率的な構築法。データをランダムかつ階層的に分割し、分割された領域内でknnを求め、複数のそれらの結果を統合する。
Real-time Image-based 6-DOF Localization in Large-Scale Environments (CVPR'12)
- Harris detector + BRIEF descriptorで高速なトラッキング。globalな位置推定のための2D-to-3Dマッチングでは、オフラインで複数スケールの特徴量を抽出し、オンラインではスケール不変でないdetectorを利用することで高速化。
A Fast Nearest Neighbor Search Algorithm by Nonlinear Embedding (CVPR'12)
- 次元圧縮と距離のlower boundによる打ち切りの高精度化を利用した（近似）再近傍探索。
3D Visual Phrases for Landmark Recognition (CVPR'12)
- 2D空間で行われているweak geometric verification系のvisual phraseを3Dの点群へ応用。
Inverted Multi-Index (CVPR'12)
- visual wordのコードブックを直積量子化で作りましたとしか読めないが…同じコードブック数で比較するとい言っている箇所が幾つかあるが、各部分ベクトルのコードブックと分割していない全体のコードブックサイズを同じにしているのはどうかと思う。コードブックサイズを大きくしてmultiple-assignment (priority search) を行ったほうが精度は高くなるのは当たり前なわけで。フェアに比較すると結局は（特徴ベクトルより上の階層の）visual wordの最近傍探索の精度の話になって、それって全探索と直積量子化を利用した近似探索の差ですよねって結論に。
Fast Computation of min-Hash signatures for Image Collectionss (CVPR'12)
- 複数の画像 (document) を同時に処理することによりmin-Hashの生成を高速化。手法はともかく、公開データセットを利用しているのに一般的なMAPで精度を出さないあたり、やっぱりmin-Hashではあんまり精度でないんだと邪推。
FREAK: Fast Retina Keypoint (CVPR'12)
- BRISKのdetector (AGAST) と、DAISY記述子のようなマルチスケールの円パッチの組の平均輝度の大小関係からバイナリ特徴を抽出。どのパッチの組を利用するかはORBで利用されているアルゴリズムを利用。DAISY→A Fast Local Descriptor for Dense Matching
Image Matching using Local Symmetry Features (CVPR'12)
- 線対称、点対称っぽさを複数スケールでスコア付け、極値をsymmetry featuresとして検出、マッチング。
Randomized Visual Phrases for Object Search (CVPR'12)
- 画像をランダムグリッドに分割し、各グリッド内のVW集合をvisual phraseとする。効率が悪そうな気がするけど検索ロジックがよく分からない…
Iterative Nearest Neighbors for Classification and Dimensionality Reduction (CVPR'12)
- 対象となる特徴ベクトルqに関して、qの最近傍NN(q)との残差を利用して q = q + λ(q - NN(q)) と再帰的に再構築。最終的にはスパースコーディングを行ったような基底群と重みベクトルが得られる。
Fast Search in Hamming Space with Multi-Index Hashing (CVPR'12)
- バイナリベクトルのハミング空間での厳密なkNNまたはレンジサーチ手法。bビットのベクトルをm個の部分ベクトルに分割し、各部分ベクトルに対応するハッシュ（転置インデックス）を作成（m個のハッシュ）。ポイントは、ベクトルpから最大rビット異なるベクトルを検索しようとしたとき、検索されるべきベクトルはfloor(r/m)ビット以下の違いしかない部分ベクトルが存在する（鳩ノ巣原理）。例えば、128ビットのベクトルを4分割するとして、最大7ビットの違いのあるベクトルを検索する場合には、各部分ベクトルに対応するハッシュについて、クエリと1ビットまで違うハッシュ値のリストと距離計算を行う。64ビットのベクトル1B個 (8BG) をインデックス化すると86BGになるという記述で読むのを辞めそうになったが…そもそもSIFTやGISTのベクトルをバイナリ化したもの（既に近似されている）を対象としている以上、厳密なkNNにどこまで意味があるかという意味ではLSHでも良いかなと。