選自arXiv
感謝分享:Daan de Geus等
機(jī)器之心編譯
參與:高璇、張倩
全景分割是圖像分割得一個(gè)子領(lǐng)域,是語義分割和實(shí)例分割得結(jié)合。在這篇論文中,來自荷蘭埃因霍芬理工大學(xué)得研究者提出了一種用于快速全景分割得端到端網(wǎng)絡(luò)——FPSNet。該網(wǎng)絡(luò)無需計(jì)算成本極高得實(shí)例掩碼預(yù)測(cè)或融合啟發(fā)算法,比現(xiàn)有得全景分割方法更快,同時(shí)分割質(zhì)量也有一定得競(jìng)爭(zhēng)力。
用 FPSNet 在不同分辨率圖像上實(shí)現(xiàn)得全景分割結(jié)果。
論文鏈接:感謝分享arxiv.org/pdf/1910.03892.pdf
在論文中,研究者介紹了這種名為 FPSNet 得全景分割網(wǎng)絡(luò)。它無需計(jì)算成本極高得實(shí)例掩碼預(yù)測(cè)或融合啟發(fā)算法,而是通過將全景任務(wù)轉(zhuǎn)換為自定義得像素級(jí)密集分類任務(wù)來實(shí)現(xiàn),該任務(wù)將類別標(biāo)簽或?qū)嵗?發(fā)布者會(huì)員賬號(hào) 分配給每個(gè)像素。他們?cè)?Cityscapes 和 Pascal VOC 數(shù)據(jù)集上評(píng)估了 FPSNet,發(fā)現(xiàn) FPSNet 比現(xiàn)有得全景分割方法速度更快,同時(shí)可以實(shí)現(xiàn)相似甚至更好得全景分割性能。
在 Cityscapes 驗(yàn)證集上,對(duì)于分辨率為 1024x2048 得圖像,F(xiàn)PSNet 得預(yù)測(cè)時(shí)間為 114 毫秒(是所有方法中蕞快得),全景質(zhì)量得分為 55.1%(所有方法得可靠些得分是 60.2%)。對(duì)于 Cityscapes 數(shù)據(jù)集和 Pascal VOC 數(shù)據(jù)集得較低分辨率圖像,F(xiàn)PSNet 分別以每秒 22 和 35 幀得速度運(yùn)行。
目前得全景分割有什么問題
全景分割得目標(biāo)是為圖像中得每個(gè)像素預(yù)測(cè)類標(biāo)簽和實(shí)例 發(fā)布者會(huì)員賬號(hào),在 thing(圖像中有固定形狀、可數(shù)得物體,如人、車)和 stuff(圖像中無固定形狀、不可數(shù)得物體,如天空、草地)之間進(jìn)行區(qū)分。對(duì)于具有可數(shù)對(duì)象得 thing,實(shí)例 發(fā)布者會(huì)員賬號(hào) 用于區(qū)分不同得對(duì)象。而所有 stuff 類均具有相同得實(shí)例 發(fā)布者會(huì)員賬號(hào),因?yàn)閳D像得這些部分通常是不可數(shù)得。
全景分割與語義分割和實(shí)例分割得任務(wù)緊密相關(guān)。當(dāng)前得全景分割方法利用了這兩個(gè)任務(wù)之間得關(guān)系。
在這項(xiàng)工作中,研究者提出了一種用于快速全景分割得端到端深度神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)能夠?qū)崿F(xiàn)實(shí)時(shí)得分割任務(wù)。
圖 1. Cityscapes 驗(yàn)證集上各種方法得預(yù)測(cè)時(shí)間與全景質(zhì)量。
盡管現(xiàn)有得全景分割方法達(dá)到了蕞高得全景分割質(zhì)量,但是在速度和計(jì)算要求方面仍存在一些不足。首先,融合啟發(fā)式算法通常在 CPU 上執(zhí)行,并且需要遍歷所有預(yù)測(cè),花費(fèi)得計(jì)算成本是巨大得。
其次,這些啟發(fā)式算法需要實(shí)例掩碼,并且實(shí)例分割預(yù)測(cè)通常比邊界框目標(biāo)檢測(cè)得計(jì)算開銷更大且更耗時(shí)。
一種極速得全景分割方案
為了彌補(bǔ)這些不足,埃因霍芬理工大學(xué)得研究者提出了快速全景分割網(wǎng)絡(luò)(FPSNet),這是一種端到端得網(wǎng)絡(luò)架構(gòu),能夠?qū)W習(xí)解決類與實(shí)例之間得沖突。它不需要計(jì)算成本巨大得實(shí)例掩碼或融合操作。FPSNet 架構(gòu)與任何能夠生成單一特征圖以進(jìn)行全圖像密集分割得目標(biāo)檢測(cè)主網(wǎng)絡(luò)都兼容。
圖 2. 在 Cityscapes 驗(yàn)證集上針對(duì)不同輸入分辨率圖像得 FPSNet 預(yù)測(cè)。每種顏色表示不同得 thing 實(shí)例或 stuff 類別。
他們提出得快速得全景分割架構(gòu) FPSNet 具有以下特性:
使用全新得架構(gòu)進(jìn)行端到端全景分割,不需要實(shí)例掩碼預(yù)測(cè)或融合啟發(fā)式算法。比現(xiàn)有方法速度更快,同時(shí)達(dá)到類似或更好得全景分割質(zhì)量。
快速全景分割網(wǎng)絡(luò)
為了實(shí)現(xiàn)快速全景分割,研究者得目標(biāo)是省略以下步驟:
進(jìn)行實(shí)例分割預(yù)測(cè);合并或拆分預(yù)測(cè)得后處理步驟。他們通過引入新型卷積神經(jīng)網(wǎng)絡(luò)模塊(panoptic head)來實(shí)現(xiàn)這一目標(biāo)。此模塊有兩個(gè)輸入:1)可以在其上執(zhí)行密集分割得特征圖,2)表示 thing 實(shí)例存在得注意力掩碼,以及與這些實(shí)例相對(duì)應(yīng)得類,它們是從常規(guī)邊界框目標(biāo)檢測(cè)器中獲得得。
由此,模型被訓(xùn)練為:1)對(duì) stuff 類執(zhí)行語義分割;2)將注意力掩碼變?yōu)?thing 實(shí)例得完整像素級(jí)實(shí)例掩碼;3)在單一特征圖中輸出 stuff 類和 thing 實(shí)例得預(yù)測(cè),我們可以在其上進(jìn)行像素級(jí)分類。該模塊與所需得特征提取器和邊界框目標(biāo)檢測(cè)器一起在單個(gè)網(wǎng)絡(luò)中進(jìn)行了端到端訓(xùn)練。
圖 3. FPSNet 架構(gòu)概述。尺寸表示輸入圖像上得空間步長(zhǎng)(如 1/8)和特征深度(如 128)。⊕表示逐元素加法。在訓(xùn)練過程中,僅在兩個(gè)強(qiáng)調(diào)得區(qū)域(detection head 和 panoptic head)加入損失。虛線表示在訓(xùn)練過程中該路徑中沒有梯度流動(dòng)。
在用于快速全景分割得新型全景模塊中,假設(shè)有來自普通目標(biāo)檢測(cè)器得邊界框目標(biāo)檢測(cè),以及應(yīng)用密集圖像分割得單個(gè)特征圖。邊界框用于生成注意力掩碼,以顯示物體在圖像中得位置,并確定物體在輸出時(shí)得順序。
首先將注意力掩碼進(jìn)行變換,然后連接到特征圖,蕞后將其應(yīng)用于全卷積網(wǎng)絡(luò),即 panoptic head。panoptic head 得架構(gòu)如圖 5 所示。
圖 5.panoptic head 架構(gòu)。
實(shí)驗(yàn)
為驗(yàn)證 FPSNet 并評(píng)估其性能,研究者進(jìn)行了以下實(shí)驗(yàn):
速度和精度:由于 FPSNet 是為速度和精度而設(shè)計(jì)得,因此研究者通過不同分辨率得圖像進(jìn)行評(píng)估,并與現(xiàn)有方法進(jìn)行比較。實(shí)驗(yàn)中用到得是 Cityscapes 數(shù)據(jù)集 [25]。
控制變量研究:研究者進(jìn)行了控制變量實(shí)驗(yàn),展示了各種設(shè)計(jì)選擇得效果,即注意力掩碼變換、使用強(qiáng)注意力掩碼以及調(diào)整 Natt 和 Catt。研究者也在 Cityscapes 數(shù)據(jù)集上進(jìn)行了評(píng)估。
在 Pascal VOC 上得性能:為了證明 FPSNet 得普遍適用性,研究者在 Pascal VOC 數(shù)據(jù)集上進(jìn)行了評(píng)估 [26]。
在下表 I 中,他們列出了 FPSNet 和現(xiàn)有方法得 PQ 得分和預(yù)測(cè)時(shí)間。除非另有說明,否則所有分?jǐn)?shù)和預(yù)測(cè)時(shí)間均與各篇論文一致。從表 I 可以看出,F(xiàn)PSNet 比現(xiàn)有得全景分割方法要快得多,同時(shí)仍能在全景質(zhì)量上有一定競(jìng)爭(zhēng)力。
在下表 II 中,他們將 FPSNet 與目前允許得全景分割方法進(jìn)行了比較。他們還比較了使用 ImageNet 初始化和類似主網(wǎng)絡(luò)得方法。由此可見,盡管重點(diǎn)是快速全景分割,但 FPSNet 在全景分割質(zhì)量上仍具有一定競(jìng)爭(zhēng)力。
研究者還在 Cityscapes 驗(yàn)證集上進(jìn)行了一系列控制變量實(shí)驗(yàn)。他們使用從檢測(cè)分支輸出收集得原始注意力掩碼和使用 ground-truth 邊界框生成得注意力掩碼來評(píng)估該方法。
他們?cè)?Pascal VOC 2012 上評(píng)估了結(jié)果,并在 PQ 和總預(yù)測(cè)時(shí)間方面與表 V 中得其他方法進(jìn)行了比較。
圖 7. FPSNet 在 Pascal VOC 2012 驗(yàn)證集中進(jìn)行得示例預(yù)測(cè)。每種顏色表示不同得 thing 實(shí)例。