japan cv day 2013 payashim
DESCRIPTION
Japan CV Day 2013の論文紹介にて、私(@payashim)が発表に用いた資料です。TRANSCRIPT
Japan CV day 2013:CVPR2013 論文紹介
1. “Intrinsic Scene Properties from a Single RGB-D Image“ Jonathan T. Barron and Jitendra Malik
2. “Perceptual Organization and Recognition of Indoor Scenes from RGB-D Images” Saurabh Gupta, Pablo Arbela ́ez, and Jitendra Malik
プレゼンター:
慶応義塾大学 後期博士課程 D2 林 昌希(Masaki Hayashi) @payashim
Introduction以下の J. Malik研の画像向けセグメンテーション技術を,KinectからのRGBDデータを用いた話に活用した論文2つを紹介:① Normalized Cuts, Super pixel (Shi and Malik, 2000),(Ren and Malik,2003; Mori,Ren, Efros,Malik,2004 )
② gPB (global Probability Boundary) - ucm (Ultrametric Contour Map) (Arbela ́ez, et al. , 2011他)
Japan CV day 2013:CVPR2013 論文紹介
1. “Intrinsic Scene Properties from a Single RGB-D Image“ Jonathan T. Barron and Jitendra Malik
2. “Perceptual Organization and Recognition of Indoor Scenes from RGB-D Images” Saurabh Gupta, Pablo Arbela ́ez, and Jitendra Malik
NYU Depth datasetECCV 2012 “Indoor Segmentation and Support Inference from RGBD Images”のデータセット。Kinectで様々な部屋から取得したDepth+RGBが,ラベル付きで収録。
http://cs.nyu.edu/~silberman/datasets/nyu_depth_v2
1.の論文の概要
セグメンテーション済みの物体にしか通用しなったSIRFSモデルを拡張→ セグメンテーションと統合することに”Scene-SIRFS”でインドアシーンを(セグメント混合に分けて)Intrinsic推定。
入力:1フレームのRGB画像とデプス
出力:綺麗になったデプス, 法線, reflectance画像,Shading画像, 空間的に変化するilluminationモデル
問題設定入力の画像 or 画像+デプスから,Shape(depth), Reflectance, illumination の尤もらしいものを同時推定
SIRFS model (CVPR2102)
SIRFS(shape, illumination, and reflectance from shading):古くからのshape-from-shadingの拡張で、shape(Z)だけでなく、illumination(L)とreflectance(R)も同時に復元。
入力:セグメンテーション済み物体のグレースケール画像一枚
出力: Shape(Z),Albedo Map(R),Shading
Image(S(Z,L)), illumination(L)
S(Z,L):depth(Z)とLight(L)からShading画像を生成するレンダリング関数.
SIRFS model (CVPR2012, ECCV2012)
画像Iを再構成するのに,尤もらしい Z, R, L を同時確率最大化により推定
SIRFS model (CVPR2012, ECCV2012)
画像Iを再構成するのに,尤もらしい Z, R, L をコスト関数最小化により推定
SIRFS model カラー対応版 (ECCV2012)
CVPR 2012のものは,グレースケール画像に向けモデル→ ECCV2012でillumination, reflectanceをカラー対応。
L: 27次元の球面調和関数illuminationreflectance
prior:データセットからガウスフィッティングで学習
3つのコスト関数 結果例①Smoothness
②エントロピー最小
③Absolute Color
SIRFS model の問題点
SIRFSの仮定「入力画像Iはa single , segmented object 」のみ含んでいる:
問題1. 単体の滑らかにつながったdepth-map Zから構成されていると仮定→不連続なdepthは対応できない.
問題2. illumination Lがsingle global model→cast shadowやattached shadow等により,空間的に変化する部屋内のilluminationを表現できない.
問題3. SIRFSでは物体のoccluding contour[17]を使用しているが,ナチュラルシーン向けの仮定ではない.
Scene-SIRFS shapeとilluminationがそれぞれ,normalized cutsした固有値segmentにおけるshape(Z)/illumination(L)成分のmixture modelと捉えることで,SIRFSモデルをインドアシーン向けに拡張.
入力:Kinectからのデプス(Z) +RGB画像(I)
出力: Shape(Depth),Albedo(R),Shape Image(I), illumination(L)と、それらを推定するために用いたdepth mixture (U)とillumination mixture(V)(それぞれn/m個の分布のランダム混合モデル)。
Softmax関数重み係数ψとωはランダムに決定
L-BFGSで最適化
Segmentation + SIRF ではダメ
各segmentsは各objectやilluminationにほとんど対応していない推定する際に,segment間の情報を共有する必要あり
Soft Segmentation
Soft Segmentation
Soft Segmentation
Scene SIRFS
Shape Mixture
Scene SIRFS
Illumination Mixture
Scene SIRFS
1.の論文のまとめSIRFS: Shape-from-Shading + Intrinsic Images + Color Constancy + Illumination Estimation. これらを一括で求める
①gPb-ucmによるsoftセグメンテーション(shape,illuminationのmixture model),②入力をRGBDに変更,することで,SIRFS(CVPR2012,ECCV2012)をScene-SIRFSに拡張.
応用:relighting or re-orienting camera, graphics model, 新規オブジェクトの挿入
Japan CV day 2013:CVPR2013 論文紹介
1. “Intrinsic Scene Properties from a Single RGB-D Image“ Jonathan T. Barron and Jitendra Malik
2. “Perceptual Organization and Recognition of Indoor Scenes from RGB-D Images” Saurabh Gupta, Pablo Arbela ́ez, and Jitendra Malik
2.の論文の概要
①「gPb-ucm」をDepth向け一般化したobject boundary detection
② 全体を用いたAmodal Completion
③ ①と②からのSemantic Segmentation
①
②
③
問題設定RGBDデータからのSemantic Segmentation
① Bottom-up Segmentation
①
②
③
① Bottom-up Segmentation
①
②
③gPb-ucmをRGB向けからRGBD向けに拡張.Depthから計算できる Normal(Convex,Conave)からのGradientを追加で使用.
① Results
①
②
③
② Amodal completion
①
②
③
② Amodal completion
①
②
①で生成した物は2D的つながりであり,不連続なところはより小さいsuperpixelになりがち→「Super pixel間の(1) 3D orientation (2) point-to-planeのresidual error 」を特徴として,Depthを補間してかつ.同じ特徴のものどうしをクラスタリング (Amodal Perceptionな補間を実現)
② Results
①
②
middle featureに近いセグメントGroupが生成される→ low-levelのsuperpixelより,ラベリングに使いやすいクラスタになる.
③ Semantic Segmentation
①
②
③③
③ Semantic Segmentation
①
②
2種類のTask設定:旧来手法設定(下)と本手法での新規設定(上)
③ Semantic Segmentation
①
②
③③
③ Features 1; Generic Features
①
②
以下の図の上半分に書かれている各一般的な特徴を計算
③ Features 2: Category Specific
①
以下の特徴でone-v.s.-the-rest additive kernel SVM によりSemanticラベルを学習:
1. Vector Quantized color SIFT
2. Geocentric Textons (地面からの高さ,重力方向との角度) ※本
③ Results
①
②
③③
③ Results
①
②
③③
Scene ClassificationSpatial Pyramid Matching + Geocentric Texton(本論文で提案された特徴)により,③で推定したSemanticラベルからSceneクラスを推定
2.の論文のまとめgPb-ucmをRGBDデータ向けに拡張したbottom-up segmentationからの,middle-level segment生成による,インドアシーンラベリング.
信頼度の高い amodal completion後のsegment groupも使う事により,fine-grained な40クラスのラベリングに初めてチャレンジ.
ラベルが細かく出来たので,シーン識別も精度アップ.