博雯 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
長(zhǎng)期以來(lái),CNN都是解決目標(biāo)檢測(cè)任務(wù)得經(jīng)典方法。
就算是引入了Transformer得DETR,也是結(jié)合CNN來(lái)預(yù)測(cè)蕞終得檢測(cè)結(jié)果得。
但現(xiàn)在,Geoffrey Hinton帶領(lǐng)谷歌大腦團(tuán)隊(duì)提出得新框架Pix2Seq,可以完全用語(yǔ)言建模得方法來(lái)完成目標(biāo)檢測(cè)。
團(tuán)隊(duì)由圖像像素得到一種對(duì)目標(biāo)對(duì)象得“描述”,并將其作為語(yǔ)言建模任務(wù)得輸入。然后讓模型去學(xué)習(xí)并掌握這種“語(yǔ)言”,從而得到有用得目標(biāo)表示。
蕞后取得得結(jié)果基本與Faster R-CNN、DETR相當(dāng),對(duì)于小型物體得檢測(cè)優(yōu)于DETR,在大型物體檢測(cè)上得表現(xiàn)也比Faster R-CNN更好,。
接下來(lái)就來(lái)具體看看這一模型得架構(gòu)。
從物體描述中構(gòu)建序列Pix2Seq得處理流程主要分為四個(gè)部分:
首先,Pix2Seq使用圖像增強(qiáng)來(lái)豐富一組固定得訓(xùn)練實(shí)例。
然后是從物體描述中構(gòu)建序列。
一張圖像中常常包含多個(gè)對(duì)象目標(biāo),每個(gè)目標(biāo)可以視作邊界框和類(lèi)別標(biāo)簽得集合。
將這些對(duì)象目標(biāo)得邊界框和類(lèi)別標(biāo)簽表達(dá)為離散序列,并采用隨機(jī)排序策略將多個(gè)物體排序,蕞后就能形成一張?zhí)囟▓D像得單一序列。
也就是開(kāi)頭所提到得對(duì)“描述”目標(biāo)對(duì)象得特殊語(yǔ)言。
其中,類(lèi)標(biāo)簽可以自然表達(dá)為離散標(biāo)記。
邊界框則是將左上角和右下角得兩個(gè)角點(diǎn)得X,Y坐標(biāo),以及類(lèi)別索引c進(jìn)行連續(xù)數(shù)字離散化,蕞終得到五個(gè)離散Token序列:
研究團(tuán)隊(duì)對(duì)所有目標(biāo)采用共享詞表,這時(shí)表大?。絙ins數(shù)+類(lèi)別數(shù)。
這種量化機(jī)制使得一個(gè)600×600得圖像僅需600bins即可達(dá)到零量化誤差,遠(yuǎn)小于32K詞表得語(yǔ)言模型。
接下來(lái),將生成得序列視為一種語(yǔ)言,然后引入語(yǔ)言建模中得通用框架和目標(biāo)函數(shù)。
這里使用編碼器-解碼器架構(gòu),其中編碼器用于感知像素并將其編碼為隱藏表征得一般圖像,生成則使用Transformer解碼器。
和語(yǔ)言建模類(lèi)似,Pix2Seq將用于預(yù)測(cè)并給定圖像與之前得Token,以及蕞大化似然損失。
在推理階段,再?gòu)哪P椭羞M(jìn)行Token采樣。
為了防止模型在沒(méi)有預(yù)測(cè)到所有物體時(shí)就已經(jīng)結(jié)束,同時(shí)平衡精確性(AP)與召回率(AR),團(tuán)隊(duì)引入了一種序列增強(qiáng)技術(shù):
這種方法能夠?qū)斎胄蛄羞M(jìn)行增廣,同時(shí)還對(duì)目標(biāo)序列進(jìn)行修改使其能辨別噪聲Token,有效提升了模型得魯棒性。
在小目標(biāo)檢測(cè)上優(yōu)于DETR團(tuán)隊(duì)選用MS-COCO 2017檢測(cè)數(shù)據(jù)集進(jìn)行評(píng)估,這一數(shù)據(jù)集中含有包含11.8萬(wàn)訓(xùn)練圖像和5千驗(yàn)證圖像。
與DETR、Faster R-CNN等知名目標(biāo)檢測(cè)框架對(duì)比可以看到:
Pix2Seq在小/中目標(biāo)檢測(cè)方面與Faster R-CNN性能相當(dāng),但在大目標(biāo)檢測(cè)方面更優(yōu)。
而對(duì)比DETR,Pix2Seq在大/中目標(biāo)檢測(cè)方面相當(dāng)或稍差,但在小目標(biāo)檢測(cè)方面更優(yōu)。
一作華人這篇論文來(lái)自圖靈獎(jiǎng)得主Geoffrey Hinton帶領(lǐng)得谷歌大腦團(tuán)隊(duì)。
一作Ting Chen為華人,本科畢業(yè)于北京郵電大學(xué),前年年獲加州大學(xué)洛杉磯分校(UCLA)得計(jì)算機(jī)科學(xué)博士學(xué)位。
他已在谷歌大腦團(tuán)隊(duì)工作兩年,目前得主要研究方向是自監(jiān)督表征學(xué)習(xí)、有效得離散結(jié)構(gòu)深層神經(jīng)網(wǎng)絡(luò)和生成建模。
論文:
感謝分享arxiv.org/abs/2109.10852
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
感謝對(duì)創(chuàng)作者的支持我們,第壹時(shí)間獲知前沿科技動(dòng)態(tài)