Google透過人工智慧教電腦如何分辨透明物體

T客邦

174

發佈時間: 2020-02-14 07:07

更新時間: 2020-02-14 07:07

如何正確辨視透明物體一直是電腦視覺領域的一大難題,雖然自駕車或工業自動化機器人大多搭載先進且複雜的影像辨識系統,但往往敗在透明物體上。為了解決這項挑戰,來自哥倫比亞大學Synthesis Ai與Google的研發團隊共同推出ClearGrasp技術,透過人工智慧的方式強化辨識效果。

透明物體常被辨識成雜訊

目前電腦視覺常使用RGB-D相機(可以記錄景深資訊的相機,如Kinect)、光達(Lidar)等光學距離感應器建立準確的3D環境模型,然而使用光學方式偵測的缺點,就是很容易受到玻璃容器等透明物體干擾。

其中主要的原因,在於這類感應器在運作過成中,會假設所有的物體表面均為完全漫反射(Lambertian Reflectance,指表面能將光線均勻反射至所有方向,從而在所有視角下產生均勻的表面亮度),然而透明物體的表面除了有反射光之外,還會有折射光,所以違背了這個假設,造成無法辨識或是被辨識為雜訊等情況。

根據ClearGrasp的論文(PDF)指出,ClearGrasp可以在深度學習的協助下,使用深度卷積網絡判斷物體表面的法線,以及透明物體的表面遮罩、遮擋邊界(Occlusion Boundary,即景深的不連續性),以精確推算單張RGB-D圖像中的景深資訊。

使用Intel RealSense D415景深攝影機拍攝透明物體的效果並不理想。(圖片來源:Google,下同)使用Intel RealSense D415景深攝影機拍攝透明物體的效果並不理想。(圖片來源:Google,下同)

在3D模型中透明物體的很多部分無法正常偵測。以傳統方式建立的3D模型中,許多透明物體無法正常偵測並顯示出來。

ClearGrasp(右下)能大幅提升辨識透明物體的準確度。ClearGrasp(右下)能大幅提升辨識透明物體的準確度。

使用模擬圖像訓練

ClearGrasp運作過程總計使用3個神經網路,第1個是用於標記物體表面的法線,第2個則用於標記遮擋邊界,最後的則用於標記透明物體,以利後續透過遮罩過慮屬於透明物體的所有像素,並在最後補上正確的景深數據。

由於目前沒有現成的透明物體圖片與景深資料庫,因此在訓練過程中,開發團隊使用3D繪圖的方式產生了超過50,000張的RGB-D模擬圖像,這樣一來不但可以快速建立資料庫,還能夠使用逼真的CG圖像搭配準確的景深資料訓練系統,並依需要改變背景和照明條件,增加訓練資料庫的豐富性。

為了驗證訓練成果,研發團隊準備了286組真實照片,每組由2張照片構成,其中1張包含透明物品,而另1張則將透明物品替換為外型一模一樣的非透明物品,藉以分析2種情況下的辨識情況是否相同。

值得注意的是,雖然這種訓練能準確辨識真實照片中的透明物體,但對於其他表面(如牆壁或一般物品)的表面辨識確不太理想,因此開發團隊還補充使用Matterport3DScanNet資料庫訓練系統一般物品,以強化整體表現。

在驗證實驗部分,開發團對使用UR5機械手臂測試抓取透明物體,使用平行爪抓取物體的成功率可以從12%提升到74%,如果使用吸盤吸取物體的話,成功率則從64%提高升到86%,證明ClearGrasp的準確度相當理想。

ClearGrasp總共使用3個神經網路分析輸入的影像。ClearGrasp總共使用3個神經網路分析輸入的影像。

研發團隊使用大量電腦繪圖的模擬圖像訓練深度學習系統。研發團隊使用大量電腦繪圖的模擬圖像訓練深度學習系統。

並使用包含透明、非透明對照物品的真實照片驗證。並使用包含透明、非透明對照物品的真實照片驗證。

此外研發團隊還使用Matterport3D與ScanNet資料庫訓練系統辨識一般物品,強化整體準確度。此外研發團隊還使用Matterport3D與ScanNet資料庫訓練系統辨識一般物品,強化整體準確度。

▲ClearGrasp的成果展示。影片最後可以看到ClearGrasp(右上)的辨識情況與真實條件(左上)相當接近。

ClearGrasp目前已經以開源型式釋出,有興趣的讀者可以參考專案網頁GitHub取得更多資訊。

想看小編精選的3C科技情報&實用評測文,快來加入《T客邦》LINE@查看原始文章加入LINE購物夯話題

商品推薦

延伸閱讀
小編推薦

資料來源Google透過人工智慧教電腦如何分辨透明物體
若針對此內容有任何建議,請聯繫客服