japan cv day 2013 payashim

Japan CV day 2013:CVPR2013 論文紹介

1. “Intrinsic Scene Properties from a Single RGB-D Image“ Jonathan T. Barron and Jitendra Malik

2. “Perceptual Organization and Recognition of Indoor Scenes from RGB-D Images” Saurabh Gupta, Pablo Arbela ́ez, and Jitendra Malik

プレゼンター：

慶応義塾大学後期博士課程 D2 林昌希(Masaki Hayashi) @payashim

[email protected]

Introduction以下の J. Malik研の画像向けセグメンテーション技術を，KinectからのRGBDデータを用いた話に活用した論文２つを紹介：① Normalized Cuts, Super pixel (Shi and Malik, 2000),(Ren and Malik,2003; Mori,Ren, Efros,Malik,2004 )

② gPB (global Probability Boundary) - ucm (Ultrametric Contour Map) (Arbela ́ez, et al. , 2011他)

NYU Depth datasetECCV 2012 “Indoor Segmentation and Support Inference from RGBD Images”のデータセット。Kinectで様々な部屋から取得したDepth+RGBが,ラベル付きで収録。

http://cs.nyu.edu/~silberman/datasets/nyu_depth_v2



1.の論文の概要

セグメンテーション済みの物体にしか通用しなったSIRFSモデルを拡張→ セグメンテーションと統合することに”Scene-SIRFS”でインドアシーンを(セグメント混合に分けて)Intrinsic推定。

入力：１フレームのRGB画像とデプス

出力：綺麗になったデプス, 法線, reflectance画像,Shading画像, 空間的に変化するilluminationモデル

問題設定入力の画像 or 画像+デプスから，Shape(depth), Reflectance, illumination の尤もらしいものを同時推定

SIRFS model (CVPR2102)

SIRFS(shape, illumination, and reflectance from shading)：古くからのshape-from-shadingの拡張で、shape(Z)だけでなく、illumination(L)とreflectance(R)も同時に復元。

入力：セグメンテーション済み物体のグレースケール画像一枚

出力: Shape(Z),Albedo Map(R),Shading

Image(S(Z,L)), illumination(L)

S(Z,L):depth(Z)とLight(L)からShading画像を生成するレンダリング関数．

SIRFS model (CVPR2012, ECCV2012)

画像Iを再構成するのに，尤もらしい Z, R, L を同時確率最大化により推定

SIRFS model (CVPR2012, ECCV2012)

画像Iを再構成するのに，尤もらしい Z, R, L をコスト関数最小化により推定

SIRFS model カラー対応版 (ECCV2012)

CVPR 2012のものは，グレースケール画像に向けモデル→ ECCV2012でillumination, reflectanceをカラー対応。

L: 27次元の球面調和関数illuminationreflectance

prior:データセットからガウスフィッティングで学習

3つのコスト関数結果例①Smoothness

②エントロピー最小

③Absolute Color

SIRFS model の問題点

SIRFSの仮定「入力画像Iはa single , segmented object 」のみ含んでいる：

問題1. 単体の滑らかにつながったdepth-map Zから構成されていると仮定→不連続なdepthは対応できない．

問題2. illumination Lがsingle global model→cast shadowやattached shadow等により，空間的に変化する部屋内のilluminationを表現できない．

問題3. SIRFSでは物体のoccluding contour[17]を使用しているが，ナチュラルシーン向けの仮定ではない．

Scene-SIRFS shapeとilluminationがそれぞれ，normalized cutsした固有値segmentにおけるshape(Z)/illumination(L)成分のmixture modelと捉えることで，SIRFSモデルをインドアシーン向けに拡張．

入力：Kinectからのデプス(Z) ＋RGB画像(I)

出力: Shape(Depth),Albedo(R),Shape Image(I), illumination(L)と、それらを推定するために用いたdepth mixture (U)とillumination mixture(V)（それぞれn/m個の分布のランダム混合モデル）。

Softmax関数重み係数ψとωはランダムに決定

L-BFGSで最適化

Segmentation + SIRF ではダメ

各segmentsは各objectやilluminationにほとんど対応していない推定する際に，segment間の情報を共有する必要あり

Soft Segmentation

Scene SIRFS

Shape Mixture

Scene SIRFS

Illumination Mixture

Scene SIRFS

　1.の論文のまとめSIRFS: Shape-from-Shading + Intrinsic Images + Color Constancy + Illumination Estimation.　これらを一括で求める

①gPb-ucmによるsoftセグメンテーション(shape,illuminationのmixture model)，②入力をRGBDに変更，することで，SIRFS(CVPR2012,ECCV2012)をScene-SIRFSに拡張．

応用：relighting or re-orienting camera, graphics model, 新規オブジェクトの挿入

2.の論文の概要

①「gPb-ucm」をDepth向け一般化したobject boundary detection

② 全体を用いたAmodal Completion

③ ①と②からのSemantic Segmentation

①

②

③

問題設定RGBDデータからのSemantic Segmentation

① Bottom-up Segmentation

①

②

③

① Bottom-up Segmentation

①

②

③gPb-ucmをRGB向けからRGBD向けに拡張．Depthから計算できる Normal(Convex,Conave)からのGradientを追加で使用．

① Results

①

②

③

② Amodal completion

①

②

③

② Amodal completion

①

②

①で生成した物は2D的つながりであり，不連続なところはより小さいsuperpixelになりがち→「Super pixel間の(1) 3D orientation (2) point-to-planeのresidual error 」を特徴として，Depthを補間してかつ．同じ特徴のものどうしをクラスタリング (Amodal Perceptionな補間を実現)

② Results

①

②

middle featureに近いセグメントGroupが生成される→ low-levelのsuperpixelより，ラベリングに使いやすいクラスタになる．

③ Semantic Segmentation

①

②

③③


①

②

２種類のTask設定：旧来手法設定（下）と本手法での新規設定(上)


①

②

③③

③ Features 1; Generic Features

①

②

以下の図の上半分に書かれている各一般的な特徴を計算　

③ Features 2: Category Specific

①

以下の特徴でone-v.s.-the-rest additive kernel SVM によりSemanticラベルを学習:

1. Vector Quantized color SIFT

2. Geocentric Textons (地面からの高さ，重力方向との角度)　※本

③ Results

①

②

③③

Scene ClassificationSpatial Pyramid Matching　+ Geocentric Texton(本論文で提案された特徴)により，③で推定したSemanticラベルからSceneクラスを推定

2.の論文のまとめgPb-ucmをRGBDデータ向けに拡張したbottom-up segmentationからの，middle-level segment生成による，インドアシーンラベリング．

信頼度の高い amodal completion後のsegment groupも使う事により，fine-grained な40クラスのラベリングに初めてチャレンジ．

ラベルが細かく出来たので，シーン識別も精度アップ．

japan cv day 2013 payashim

Technology

scene sirfs

indoor segmentation

soft segmentation

sirfs model cvpr2012

rgbdsemantic segmentation

sirfs model sirfsia

semantic segmentation

sirfs model eccv2012