如果你想開發(fā)出一種超高速物體識別系統(tǒng),比如檢測導(dǎo)彈或者路上的正在跑的汽車的話,那只用一個連著數(shù)碼相機的計算機是遠遠不夠的。
加州大學(xué)洛杉磯分校的電氣工程師 Aydogan Ozcan 希望改變這種情況,所以他的研究團隊同時使用了機器學(xué)習技術(shù)、光學(xué)工具和 3D 打印技術(shù),開發(fā)出了可高速識別物體的識別系統(tǒng)。不像普通的計算機,這種系統(tǒng)不需要提供外接電源,只需要提供初始光源和一個簡單的探測器即可。
研究團隊首先提出了一種全光學(xué)的深度學(xué)習框架——衍射深度神經(jīng)網(wǎng)絡(luò)(Diffractive Deep Neural Network,D2NN),該架構(gòu)采用基于深度學(xué)習算法的無源衍射層(passive diffractive layers)設(shè)計,經(jīng)誤差反向傳播法(error back-propagation method)訓(xùn)練后,能夠以接近光速的高速處理能力,實現(xiàn)多種機器學(xué)習的復(fù)雜功能。團隊最后采用 3D 打印制造出了這種光學(xué)架構(gòu),實現(xiàn)了手寫數(shù)字和時尚產(chǎn)品的圖像分類。該成果已經(jīng)發(fā)表于《Science》雜志上。
圖丨論文:All-optical machine learning using diffractive deep neural networks(利用衍射深度神經(jīng)網(wǎng)絡(luò)的全光機器學(xué)習)
“構(gòu)建由光學(xué)元件堆疊成的固態(tài)人工神經(jīng)網(wǎng)絡(luò)是一種非常有創(chuàng)新性的方法,”瑞士洛桑聯(lián)邦理工學(xué)院光學(xué)與電氣工程學(xué)院教授 Demetri Psaltis 表示。
蒙特利爾大學(xué)研究機器學(xué)習和神經(jīng)網(wǎng)絡(luò)的 Roland Memisevic 和 Yoshua Bengio 團隊的研究生 Olexa Bilaniuk 指出,這一成果新穎之處不在深度學(xué)習部分,而是光學(xué)工程部分和使用 3D 打印“人工神經(jīng)網(wǎng)絡(luò)”的能力?!耙郧皹?gòu)建這樣一個光學(xué)網(wǎng)絡(luò)的工作要么僅僅停留在理論上,要么也只能構(gòu)建一個又小有簡單的系統(tǒng),”他補充道。
圖丨Aydogan Ozcan
Ozcan 團隊希望使用該系統(tǒng)來模仿各種動物的眼睛,這些動物的眼睛處理光線和圖像的方式與人眼不同。如果在光學(xué)顯微鏡中使用的是較短波長的光的話,這一系統(tǒng)也可以用于顯微鏡應(yīng)用和醫(yī)學(xué)成像。
為了建立他們的物體識別系統(tǒng),Ozcan 和他的同事們首先使用了深度學(xué)習的方法。目前深度學(xué)習常用于模式識別領(lǐng)域,給定音頻或視覺數(shù)據(jù),計算機可以應(yīng)用深度學(xué)習技術(shù)訓(xùn)練學(xué)習識別特定的模式,然后,利用算法習得的某些規(guī)則,來對新數(shù)據(jù)進行預(yù)測。
在該研究中,研究人員訓(xùn)練其光學(xué)網(wǎng)絡(luò)模型來識別不同的數(shù)據(jù)類型的數(shù)據(jù),包括從 0 到 9 的手寫數(shù)字識別和各種服裝的圖像的識別。在每種情況下,計算機都創(chuàng)建了一個模型,該模型由多個像素層組成。每個像素都可以傳輸光,像素之間光的連接表示某一神經(jīng)元與本層或相鄰層中的其他神經(jīng)元的連接。
對于上述提到的兩種數(shù)據(jù)類別,研究人員使用五層 3D 打印塑料對仿真模型進行物理再現(xiàn),然后使用激光——一種 0.4 THz 的單色光而非可見光來處理每種類型的圖像。
3D 打印的多層神經(jīng)網(wǎng)絡(luò)接收物體表面反射的光,光以光速經(jīng)過神經(jīng)網(wǎng)絡(luò)的固態(tài)結(jié)構(gòu)傳播,從模型的出口射出的光射向探測器,預(yù)先標定探測器對應(yīng)的物體或圖片的類別,可以間接判斷所識別的物體或圖片的分類結(jié)果。
打印得到的固態(tài)模型就像是“連接著的固態(tài)大腦,除此之外,光連接神經(jīng)元,就好像信息在神經(jīng)元之間流動一樣,”O(jiān)zcan 解釋說。
“這是一種非常高效的神經(jīng)網(wǎng)絡(luò)實現(xiàn),因為一旦被動衍射表面被 3D 打印出來,它們就不會使用任何電力,卻可以以光速處理模型的輸入,沒有任何延遲,”Bilaniuk 說。
研究人員正在努力提高訓(xùn)練模型的性能。在手寫數(shù)字識別實驗中,他們的人工網(wǎng)絡(luò)在識別新的手寫數(shù)字時準確度約為 91.75%。他們還希望擴大打印的人工網(wǎng)絡(luò)的尺寸,目前論文中報道的尺寸為 8 cm×8 cm?!霸黾痈嗟膶訑?shù),我們可以以更高準確率實現(xiàn)更復(fù)雜的任務(wù),”O(jiān)zcan 表示。
對于 Psaltis 來說,這一工作提出所帶來的問題多于答案:這個系統(tǒng)可以變得更強大和穩(wěn)定嗎?速度是否還可以提高?建模和 3D 打印的成本是多少?我們?nèi)绾螌⑦@一系統(tǒng)與現(xiàn)有的數(shù)字設(shè)備結(jié)合起來?
根據(jù) Bilaniuk 的說法,如果該系統(tǒng)可以適應(yīng)常規(guī)光線,并能做到小型化,那么潛在的應(yīng)用可能是手機相機中的人臉識別和自動對焦,而且這種方案并不會像數(shù)字設(shè)備那樣消耗電池。