原標(biāo)題:谷歌用AI檢測(cè)透明對(duì)象,實(shí)現(xiàn)玻璃上生成AR可視化效果 來源:砍柴網(wǎng)
諸如RGB-D攝像頭和LIDAR等光學(xué)3D距離傳感器已在機(jī)器人技術(shù)中得到廣泛應(yīng)用,并正在為從無人駕駛汽車到自動(dòng)操縱器的一系列應(yīng)用生成豐富準(zhǔn)確的環(huán)境3D映射。然而,諸如玻璃容器這樣的透明對(duì)象會(huì)造成昂貴傳感器的混亂。這是因?yàn)楣鈱W(xué)3D傳感器是由假定所有表面均為朗伯(Lambertian)的算法驅(qū)動(dòng),即它們?cè)谒蟹较蚓鹊胤瓷涔饩€,從而在所有視角下產(chǎn)生均勻的表面亮度。但是,透明對(duì)象違反了這一假設(shè),因?yàn)樗鼈兊谋砻婕日凵溆址瓷涔饩€。所以,來自透明對(duì)象的大多數(shù)深度數(shù)據(jù)一般為無效,或包含不可預(yù)測(cè)的噪點(diǎn)。
光學(xué)3D傳感器通常難以檢測(cè)透明對(duì)象。例如,玻璃瓶沒有出現(xiàn)在英特爾實(shí)感D415 RGB-D攝像頭捕獲的3D深度圖像之中(上方靜態(tài)圖);下方動(dòng)圖:根據(jù)深度圖像和點(diǎn)云方法構(gòu)建的3D可視化
支持機(jī)器更好地感知透明表面,這不僅可以提高安全性,而且能夠在非結(jié)構(gòu)化應(yīng)用中開啟一系列全新的交互,如可以處理廚具或分類塑料以進(jìn)行回收利用的機(jī)器人,導(dǎo)航室內(nèi)環(huán)境,或在玻璃桌面生成AR可視化效果等等。
為了解決這個(gè)問題,谷歌與Synthesis AI和哥倫比亞大學(xué)的研究人員合作開發(fā)了名為ClearGrasp的機(jī)器學(xué)習(xí)算法。據(jù)介紹,它能夠根據(jù)RGB-D圖像估計(jì)透明對(duì)象的精確3D數(shù)據(jù)。這主要得益于一個(gè)大規(guī)模合成數(shù)據(jù)集(谷歌日前同樣進(jìn)行了公開)。ClearGrasp可以配合所有標(biāo)準(zhǔn)RGB-D攝像頭,然后使用深度學(xué)習(xí)來準(zhǔn)確地重建透明對(duì)象的深度,并泛化為訓(xùn)練期間不可見的全新對(duì)象。作為對(duì)比,以前的方法需要事先理解透明對(duì)象,并且通常需要結(jié)合背景照明的映射和攝像頭位置。在這項(xiàng)研究中,谷歌同時(shí)演示了將ClearGrasp集成到拾取和放置式機(jī)器人的控制系統(tǒng)中。谷歌表示,他們留意到透明塑料對(duì)象的抓取成功率有了顯著提高。
ClearGrasp使用深度學(xué)習(xí)來恢復(fù)透明表面的準(zhǔn)確3D深度數(shù)據(jù)。
1. 透明對(duì)象的可視數(shù)據(jù)集
要訓(xùn)練有效的深度學(xué)習(xí)模型(如用于視覺的ImageNet或用于BERT的Wikipedia),你需要大量的數(shù)據(jù)。ClearGrasp也不例外。遺憾的是,我們?nèi)狈ν该鲗?duì)象的3D數(shù)據(jù)集。諸如Matterport3D或ScanNet這樣的現(xiàn)有3D數(shù)據(jù)集會(huì)忽略透明表面,因?yàn)樗鼈冃枰嘿F且耗時(shí)的標(biāo)記過程。
為解決此問題,研發(fā)團(tuán)隊(duì)自行構(gòu)建了透明對(duì)象的大規(guī)模數(shù)據(jù)集,其中包含50000多個(gè)具有相應(yīng)表面法線(表示表面曲率),分割蒙版,邊緣和深度的圖片真實(shí)感渲染,并可用于訓(xùn)練各種2D和3D檢測(cè)任務(wù)。每個(gè)圖像最多包含五個(gè)透明對(duì)象,而它們要么位于平坦的地平面之上或手提袋之內(nèi),并且具有不同的背景和照明。
ClearGrasp合成數(shù)據(jù)集中的透明對(duì)象的示例數(shù)據(jù)。
研究人員同時(shí)納入了包含286張真實(shí)世界圖像的測(cè)試集,而它們具有相應(yīng)的ground truth深度。對(duì)于真實(shí)世界圖像,團(tuán)隊(duì)將場(chǎng)景中的每個(gè)透明對(duì)象替換為具有相同姿態(tài)的繪制對(duì)象。圖像是在各種不同的室內(nèi)照明條件下并使用各種布料和貼面背景捕獲,并且包含散布在場(chǎng)景周圍的不透明對(duì)象。它們既包括合成訓(xùn)練集中存在的已知對(duì)象,又包含新的對(duì)象。
左:現(xiàn)實(shí)世界中的圖像捕獲設(shè)置;中:可以用噴涂副本精確替換每個(gè)透明對(duì)象;右:捕獲數(shù)據(jù)的示例。
2. 挑戰(zhàn)
通過透明對(duì)象看到的扭曲背景視圖會(huì)混淆典型的深度估計(jì)方法,但存在暗示對(duì)象形狀的線索。透明表面會(huì)出現(xiàn)鏡面反射,并在光線充足的環(huán)境中顯示為亮點(diǎn)。由于這種視覺提示在RGB圖像中十分明顯,并且主要受對(duì)象形狀的影響,所以卷積神經(jīng)網(wǎng)絡(luò)可以利用反射來推斷出精確的表面法線,然后再將其用于深度估計(jì)。
透明對(duì)象的鏡面反射會(huì)創(chuàng)建不同的特征(特征會(huì)根據(jù)對(duì)象的形狀而變化),并提供強(qiáng)大的視覺提示來幫助估計(jì)表面法線。
大多數(shù)機(jī)器學(xué)習(xí)算法都嘗試直接根據(jù)單眼RGB圖像估計(jì)深度。但即便是人類,單眼深度估計(jì)都是一項(xiàng)艱巨的任務(wù)。我們?cè)诠烙?jì)平坦背景表面的深度時(shí)會(huì)觀察到較大的誤差,這加深了放置于其上的透明對(duì)象的深度估計(jì)誤差。所以,研究人員認(rèn)為與其直接估計(jì)所有幾何圖形的深度,不如更正來自RGB-D 3D攝像頭的初始深度估計(jì)值,這將允許他們使用非透明表面的深度來確定透明表面的深度。
3. ClearGrasp算法
ClearGrasp使用3個(gè)神經(jīng)網(wǎng)絡(luò):一個(gè)用于估計(jì)表面法線的網(wǎng)絡(luò),一個(gè)用于遮擋邊界(深度不連續(xù))的網(wǎng)絡(luò),另一個(gè)用于遮蓋透明對(duì)象的網(wǎng)絡(luò)。遮罩用于刪除屬于透明對(duì)象的所有像素,以便能夠填充正確的深度。然后團(tuán)隊(duì)使用了全局優(yōu)化模塊,使用預(yù)測(cè)的表面發(fā)現(xiàn)來引導(dǎo)重建的形狀,以及使用預(yù)測(cè)的遮擋邊界來保持不同對(duì)象之間的分離。
團(tuán)隊(duì)提出的方法的綜述。點(diǎn)云是使用輸出深度生成并用表面法線著色。
每個(gè)神經(jīng)網(wǎng)絡(luò)都利用合成數(shù)據(jù)集進(jìn)行訓(xùn)練,而它們能夠很好地處理真實(shí)世界的透明對(duì)象。但是,諸如如墻壁或水果等表面的表面法線估計(jì)糟糕。這是由于合成數(shù)據(jù)集的局限性:僅包含位于地面地透明對(duì)象。為了應(yīng)對(duì)這個(gè)問題,團(tuán)隊(duì)在表面法線訓(xùn)練循環(huán)中納入了來自Matterport3D和ScanNet數(shù)據(jù)集的真實(shí)室內(nèi)場(chǎng)景。通過域內(nèi)合成數(shù)據(jù)集和域外實(shí)詞數(shù)據(jù)集的訓(xùn)練,模型在測(cè)試集中的所有表面均取得出色的表現(xiàn)。
根據(jù)真實(shí)圖像的表面法線預(yù)測(cè):a 僅Matterport3D和ScanNet(MP + SN);b 僅合成數(shù)據(jù)集;c MP + SN以及合成數(shù)據(jù)集。注意,通過MP + SN訓(xùn)練的模型無法檢測(cè)透明對(duì)象。僅根據(jù)合成數(shù)據(jù)訓(xùn)練的模型可以很好地拾取真實(shí)塑料瓶,但對(duì)其他對(duì)象和表面的效果不理想。當(dāng)通過兩者進(jìn)行訓(xùn)練時(shí),模型可以同時(shí)兼顧兩個(gè)方面。
4. 結(jié)果
總體而言,團(tuán)隊(duì)的定量實(shí)驗(yàn)表明,ClearGrasp能夠以比其他方法高得多的保真度來重建透明對(duì)象深度。盡管僅就合成的透明對(duì)象接受過訓(xùn)練,但團(tuán)隊(duì)發(fā)現(xiàn)模型能夠很好地適應(yīng)現(xiàn)實(shí)世界域,在不同域的已知對(duì)象方面實(shí)現(xiàn)了非常相似的定量重建性能。模型同時(shí)可以很好地推廣到具有復(fù)雜形狀的新對(duì)象。
為了確定ClearGrasp的定性性能,團(tuán)隊(duì)根據(jù)輸入和輸出深度圖像構(gòu)造3D點(diǎn)云,如下所示。生成的估計(jì)3D表面具有清晰且連貫的重構(gòu)形狀(這對(duì)于諸如3D映射和3D對(duì)象檢測(cè)的應(yīng)用而言非常重要),沒有單眼深度估計(jì)方法中出現(xiàn)的鋸齒噪點(diǎn)。模型十分穩(wěn)定,并且在挑戰(zhàn)性條件下都取得出色的表現(xiàn),如識(shí)別位于帶圖案背景中的透明對(duì)象,或區(qū)分部分遮擋的透明對(duì)象。
真實(shí)圖像的定性結(jié)果。前兩行:已知對(duì)象的結(jié)果;下兩行:新對(duì)象的結(jié)果。用表面法線著色的點(diǎn)云是根據(jù)對(duì)應(yīng)的深度圖像生成。
最重要的是,ClearGrasp的輸出深度可以直接用作利用RGB-D圖像的操作算法的輸入。通過使用ClearGrasp的輸出深度估算值而非原始傳感器數(shù)據(jù),UR5機(jī)械臂的抓取算法在抓取透明對(duì)象的成功率方面取得了顯著提升。在使用抓爪時(shí),成功率從基線的12%提高到74%,而抽吸的成功率則從64%提高到86%。
使用ClearGrasp處理新透明對(duì)象。請(qǐng)注意具有挑戰(zhàn)性的條件:無紋理背景,復(fù)雜的對(duì)象形狀,以及定向光會(huì)導(dǎo)致混亂的陰影和焦散。
5. 局限與未來的研究方向
谷歌指出,合成數(shù)據(jù)集的局限性在于,由于傳統(tǒng)路徑追蹤算法的渲染存在局限性,所以它不能代表精確的焦散。結(jié)果是,模型將明亮的焦散與陰影混淆為獨(dú)立的透明對(duì)象。盡管存在這樣的缺點(diǎn),但ClearGrasp的研究表明,合成數(shù)據(jù)依然是一種可行的方法,可以幫助基于學(xué)習(xí)的深度重建方法取得令人滿意的結(jié)果。對(duì)于未來的研究,一個(gè)充滿前景的方向是通過生成具有物理正確的焦散和表面缺陷的渲染來改善域轉(zhuǎn)真實(shí)世界圖像。