本周最受關(guān)注得進(jìn)展與大模型有關(guān)。但它不處理文字,而是處理支持——隨便給它一張支持,它都能把里面得各種物體較準(zhǔn)確地 “摳” 出來(lái)。
新模型來(lái)自 meta,被命名為 “Segment Anything Model (SAM)”,意思是 “分割一切”。
在人工智能領(lǐng)域,這個(gè)任務(wù)被稱(chēng)之為 “圖像分割”,機(jī)器逐步分析支持每個(gè)小部分得顏色分布和它形成得紋理或形狀特征,識(shí)別出哪些色塊屬于同一個(gè)物體,然后把它與其它物體區(qū)分開(kāi)。這是機(jī)器識(shí)別各種物體、讓系統(tǒng)做出判斷得關(guān)鍵步驟。
比如無(wú)人車(chē)得攝像頭收集汽車(chē)周?chē)盟挟?huà)面,系統(tǒng)想要確定怎嗎開(kāi)車(chē),就的區(qū)分這些畫(huà)面中哪些是路、哪些是人、哪些是車(chē)@,這需要圖像分割技術(shù)把它們區(qū)分開(kāi)。讓機(jī)器看 CT 圖像、識(shí)別人臉得過(guò)程類(lèi)似。
原來(lái)得圖像分割模型,只能處理種類(lèi)有限得物體,而且與它訓(xùn)練使用得數(shù)據(jù)直接相關(guān)。用人和車(chē)訓(xùn)練得模型,只能分割人或車(chē)。
meta 宣稱(chēng),用 1100 萬(wàn)張支持和它們里面 11 億個(gè)分割結(jié)果訓(xùn)練后,單個(gè)模型學(xué)會(huì)了關(guān)于物體得一般概念,不需要針對(duì)訓(xùn)練,就專(zhuān)業(yè)分割任何圖像或視頻中得任何物體,包括在訓(xùn)練數(shù)據(jù)中沒(méi)有得物體。
英偉達(dá)人工智能最新科學(xué)家 Jim Fan 認(rèn)為,這是 “計(jì)算機(jī)視覺(jué)領(lǐng)域得 GPT-3 時(shí)刻之一”。GPT-3 得迭代版 GPT-3.5 是 ChatGPT 得基礎(chǔ)模型。
許多人測(cè)試后也證實(shí)了這個(gè)判斷—— meta 得新模型演示效果頂級(jí),但用到工業(yè)場(chǎng)景用效果并不好,就像和 OpenAI 在 上年 年推出得 GPT-3 那樣。
但跟 GPT-3 不同得是,meta 訓(xùn)練得圖像分割大模型,需要使用大量標(biāo)注得數(shù)據(jù)。而且機(jī)器處理支持?jǐn)?shù)據(jù)比處理文字消耗得計(jì)算資源更多。這意味著需要大量得投入。這在一定程度上會(huì)影響技術(shù)迭代。
GPT-3 發(fā)布兩年多后,就有了 ChatGPT。在計(jì)算機(jī)視覺(jué)領(lǐng)域,或許花費(fèi)得時(shí)間更多。(賀乾明)