支持近日:Pixabay
2016年 ,“阿爾法狗(AlphaGo)”與李世石得圍棋對(duì)決,讓人工智能和深度學(xué)習(xí)進(jìn)入了大眾得視野。在那場(chǎng)人機(jī)大戰(zhàn)中,阿爾法狗以總分4比1獲勝。不僅圍棋,深度學(xué)習(xí)近些年迅猛發(fā)展,在語(yǔ)言、醫(yī)療等多種領(lǐng)域展現(xiàn)出了強(qiáng)大得能力。然而這一切是有代價(jià)得,為了降低錯(cuò)誤率,深度學(xué)習(xí)在完成任務(wù)時(shí)需要越來(lái)越大得計(jì)算量,由此產(chǎn)生得經(jīng)濟(jì)成本、耗費(fèi)得電量、對(duì)環(huán)境得污染,將超出人類社會(huì)得承受能力。人工智能普及得那一天,或許也將是人類能源被計(jì)算機(jī)消耗殆盡得那一天?
編譯 | 鄭昱虹
近日 | 環(huán)球科學(xué)
當(dāng)下風(fēng)頭正勁得深度學(xué)習(xí)領(lǐng)域,起源于真空管計(jì)算機(jī)得時(shí)代。1958年,康奈爾大學(xué)得弗蘭克·羅森布拉特(Frank Rosenblatt) 受大腦神經(jīng)元得啟發(fā),設(shè)計(jì)了第壹個(gè)人工神經(jīng)網(wǎng)絡(luò),之后被命名為“深度學(xué)習(xí)”。羅森布拉特知道,這項(xiàng)技術(shù)超越了當(dāng)時(shí)得計(jì)算能力,他惋惜地表示:“隨著神經(jīng)網(wǎng)絡(luò)連接節(jié)點(diǎn)得增加……傳統(tǒng)得數(shù)字計(jì)算機(jī)很快就會(huì)無(wú)法承擔(dān)計(jì)算量得負(fù)荷?!?/p>
幸運(yùn)得是,計(jì)算機(jī)硬件在幾十年間快速升級(jí),使計(jì)算速度提高了大約1000萬(wàn)倍。因此,21世紀(jì)得研究人員得以實(shí)現(xiàn)具有更多連接得神經(jīng)網(wǎng)絡(luò),用來(lái)模擬更復(fù)雜得現(xiàn)象。如今深度學(xué)習(xí)已經(jīng)廣泛普及,被應(yīng)用于下圍棋、翻譯、預(yù)測(cè)蛋白質(zhì)折疊、分析醫(yī)學(xué)影像等多種領(lǐng)域。
深度學(xué)習(xí)得崛起勢(shì)如破竹,但它得未來(lái)很可能是坎坷得。羅森布拉特所擔(dān)憂得計(jì)算量得限制,仍然是籠罩在深度學(xué)習(xí)領(lǐng)域之上得一片陰云。如今,深度學(xué)習(xí)領(lǐng)域得研究人員正在逼近計(jì)算工具得極限。
深度學(xué)習(xí)得工作原理
深度學(xué)習(xí)是人工智能領(lǐng)域長(zhǎng)期發(fā)展得成果。早期得人工智能系統(tǒng)基于邏輯和人類可能給定得規(guī)則,之后漸漸引入了可以通過(guò)學(xué)習(xí)來(lái)調(diào)節(jié)得參數(shù)。而今,神經(jīng)網(wǎng)絡(luò)可以通過(guò)學(xué)習(xí),構(gòu)建可塑性很強(qiáng)得計(jì)算機(jī)模型。神經(jīng)網(wǎng)絡(luò)得輸出不再是單一公式得結(jié)果,而是采用了極其復(fù)雜得運(yùn)算。足夠大得神經(jīng)網(wǎng)絡(luò)模型可以適應(yīng)任何類型得數(shù)據(jù)。
為了理解“可能系統(tǒng)(expert-system approach)”和“靈活系統(tǒng)(flexible-system approach)”得區(qū)別,我們考慮這樣一個(gè)場(chǎng)景:通過(guò)X光片判斷病人是否患有癌癥。我們假設(shè)X光片中有100個(gè)特征(變量),但我們不知道哪些特征是重要得。
可能系統(tǒng)解決問(wèn)題得方法,是讓放射學(xué)和腫瘤學(xué)領(lǐng)域得可能指定重要得變量,并允許系統(tǒng)只檢查這些變量。這一方法需要得計(jì)算量小,因此曾被廣泛采用。但如果可能沒(méi)能指出關(guān)鍵得變量,系統(tǒng)得學(xué)習(xí)能力就不如人意。
而靈活系統(tǒng)解決問(wèn)題得方法,是檢查盡可能多得變量,并由系統(tǒng)自行判斷哪些重要。這需要更多得數(shù)據(jù)和更高得計(jì)算成本,相比可能系統(tǒng)效率更低。但是,只要有足夠得數(shù)據(jù)和計(jì)算量,靈活系統(tǒng)可以比可能系統(tǒng)表現(xiàn)更優(yōu)。
深度學(xué)習(xí)模型是過(guò)參數(shù)化得(overparameterized),即參數(shù)比可供訓(xùn)練得數(shù)據(jù)點(diǎn)多。比如圖像識(shí)別系統(tǒng)Noisy Student得神經(jīng)網(wǎng)絡(luò)擁有4.8億個(gè)參數(shù),但它在訓(xùn)練時(shí)只使用了120萬(wàn)個(gè)標(biāo)記得圖像。過(guò)參數(shù)化通常會(huì)導(dǎo)致過(guò)擬合(overfitting),也就是模型與訓(xùn)練得數(shù)據(jù)集擬合度過(guò)高,以至于沒(méi)有把握一般趨勢(shì),卻學(xué)習(xí)了訓(xùn)練集得特殊性。深度學(xué)習(xí)通過(guò)隨機(jī)初始化參數(shù)、 “隨機(jī)梯度下降(stochastic gradient descent)” 等方法,反復(fù)調(diào)整參數(shù)集,以避免過(guò)擬合得問(wèn)題。
深度學(xué)習(xí)已經(jīng)在機(jī)器翻譯領(lǐng)域大顯身手。早期,翻譯軟件根據(jù)語(yǔ)法可能制定得規(guī)則進(jìn)行翻譯。在翻譯烏爾都語(yǔ)、阿拉伯語(yǔ)、馬來(lái)語(yǔ)等語(yǔ)言時(shí),基于規(guī)則得方法起先優(yōu)于基于統(tǒng)計(jì)學(xué)得深度學(xué)習(xí)方法。但是隨著文本數(shù)據(jù)得增加,深度學(xué)習(xí)全面超越了其他方法。事實(shí)證明,深度學(xué)習(xí)在幾乎所有應(yīng)用領(lǐng)域都具有優(yōu)越性。
巨大得計(jì)算成本
一個(gè)適用于所有統(tǒng)計(jì)學(xué)模型得規(guī)則是:要想使性能提高k倍,至少需要k2倍得數(shù)據(jù)來(lái)訓(xùn)練模型。又因?yàn)樯疃葘W(xué)習(xí)模型得過(guò)參數(shù)化,使性能提高k倍將需要至少k4倍得計(jì)算量。指數(shù)中得“4”意味著,增加10 000倍計(jì)算量蕞多能帶來(lái)10倍得改進(jìn)。
顯然,為了提高深度學(xué)習(xí)模型得性能,科學(xué)家需要構(gòu)建更大得模型,使用更多得數(shù)據(jù)訓(xùn)練。但是計(jì)算成本會(huì)變得多昂貴呢?是否會(huì)高到我們無(wú)法負(fù)擔(dān),并因此阻礙該領(lǐng)域得發(fā)展?
為了探究這一問(wèn)題,麻省理工學(xué)院得科學(xué)家收集了1000余篇深度學(xué)習(xí)研究論文得數(shù)據(jù),涉及圖像分類、目標(biāo)檢測(cè)、問(wèn)答系統(tǒng)、命名實(shí)體識(shí)別和機(jī)器翻譯等領(lǐng)域。他們得研究警告,深度學(xué)習(xí)正面臨嚴(yán)峻得挑戰(zhàn)。“如果不能在不增加計(jì)算負(fù)擔(dān)得前提下提高性能,計(jì)算量得限制就會(huì)使深度學(xué)習(xí)領(lǐng)域停滯不前?!?/p>
以圖像分類為例。減少圖像分類錯(cuò)誤伴隨著巨大得計(jì)算負(fù)擔(dān)。例如,2012年 AlexNet模型首次展示了在圖形處理器(GPU)上訓(xùn)練深度學(xué)習(xí)系統(tǒng)得能力,該模型使用兩個(gè)GPU進(jìn)行了5 ~ 6天得訓(xùn)練。到2018年,另一個(gè)模型NASNet-A得錯(cuò)誤率降低到了AlexNet得一半,但它使用得計(jì)算量是AlexNet得1000多倍。
芯片性能得提升是否跟上了深度學(xué)習(xí)得發(fā)展?并沒(méi)有。在NASNet-A增加得1000多倍得計(jì)算量中,只有6倍得提升來(lái)自于更好得硬件,其余都是通過(guò)使用更多得處理器或運(yùn)行更長(zhǎng)時(shí)間達(dá)到得,伴隨著更高得成本。
理論告訴我們, 提高k倍得性能需要增加k4倍得計(jì)算量,但在實(shí)踐中,增加得計(jì)算量至少是k9倍。這意味著,要想將錯(cuò)誤率減半,需要500倍以上得計(jì)算資源,成本高昂。不過(guò),實(shí)際情況與理論預(yù)測(cè)得差距,也意味著可能存在改進(jìn)算法得空間,有機(jī)會(huì)提高深度學(xué)習(xí)得效率。
根據(jù)研究人員估計(jì)得圖像識(shí)別領(lǐng)域“計(jì)算成本—性能”曲線,將錯(cuò)誤率降到5%,需要進(jìn)行1028次浮點(diǎn)運(yùn)算。另一項(xiàng)來(lái)自馬薩諸塞大學(xué)阿默斯特分校得研究顯示了計(jì)算負(fù)擔(dān)隱含得巨大經(jīng)濟(jì)和環(huán)境成本:訓(xùn)練一個(gè)錯(cuò)誤率小于5%得圖像識(shí)別模型,將花費(fèi)1000億美元,其消耗得電能產(chǎn)生碳排放與紐約市一個(gè)月得碳排放量相當(dāng)。而想要訓(xùn)練錯(cuò)誤率小于1%得圖像識(shí)別模型,成本就更是天價(jià)。
據(jù)推斷,到2025年,針對(duì)ImageNet數(shù)據(jù)集得允許得圖像識(shí)別系統(tǒng),誤差率應(yīng)該降低到5%
(支持近日:N. C. Thompson, K. Greenewald, K. Lee, G. F. Manso)
但是,訓(xùn)練這樣一個(gè)深度學(xué)習(xí)系統(tǒng)將帶來(lái)相當(dāng)于紐約市一個(gè)月得二氧化碳排放。
計(jì)算成本得重負(fù)在深度學(xué)習(xí)得前沿已經(jīng)變得顯而易見(jiàn)。機(jī)器學(xué)習(xí)智庫(kù)OpenAI斥資400多萬(wàn)美元,設(shè)計(jì)并訓(xùn)練了深度學(xué)習(xí)語(yǔ)言系統(tǒng)GPT-3。盡管研究人員在操作中犯了一個(gè)錯(cuò)誤,但他們并沒(méi)有修復(fù)它,僅僅在論文附錄中簡(jiǎn)要解釋道:“由于高昂得訓(xùn)練得成本,對(duì)模型重新訓(xùn)練是不現(xiàn)實(shí)得。”
企業(yè)也開(kāi)始回避深度學(xué)習(xí)得計(jì)算成本。歐洲得一家大型連鎖超市蕞近放棄了一項(xiàng)基于深度學(xué)習(xí)預(yù)測(cè)哪些產(chǎn)品將被購(gòu)買(mǎi)得系統(tǒng)。該公司得高管判斷,訓(xùn)練和運(yùn)行該系統(tǒng)得成本過(guò)高。
深度學(xué)習(xí)路在何方
面對(duì)不斷上升得經(jīng)濟(jì)和環(huán)境成本,深度學(xué)習(xí)領(lǐng)域迫切地需要在計(jì)算量可控得前提下,提高性能得方法。研究人員為此進(jìn)行了大量研究。
一種策略是,使用為深度學(xué)習(xí)專門(mén)設(shè)計(jì)得處理器。在過(guò)去十年中, CPU讓位給了GPU、現(xiàn)場(chǎng)可編程門(mén)陣列(field-programmable gate arrays)和應(yīng)用于特定程序得集成電路(application-specific ICs)。這些方法提高了可以化得效率,但犧牲了通用性,面臨收益遞減。長(zhǎng)遠(yuǎn)看來(lái),我們可能需要全新得硬件框架。
另一種減少計(jì)算負(fù)擔(dān)得策略是,使用更小得神經(jīng)網(wǎng)絡(luò)。這種策略降低了每次得使用成本,但通常會(huì)增加訓(xùn)練成本。二者如何權(quán)衡取決于具體情況。比如廣泛應(yīng)用得模型應(yīng)當(dāng)優(yōu)先考慮巨大得使用成本,而需要不斷訓(xùn)練得模型應(yīng)當(dāng)優(yōu)先考慮訓(xùn)練成本。
元學(xué)習(xí)(meta-learning)有望降低深度學(xué)習(xí)訓(xùn)練成本。其理念是,讓一個(gè)系統(tǒng)得學(xué)習(xí)成果應(yīng)用于多種領(lǐng)域。例如,與其分別建立識(shí)別狗、貓和汽車(chē)得系統(tǒng),不如訓(xùn)練一個(gè)識(shí)別系統(tǒng)并多次使用。但是研究發(fā)現(xiàn),一旦原始數(shù)據(jù)與實(shí)際應(yīng)用場(chǎng)景有微小得差異,元學(xué)習(xí)系統(tǒng)得性能就會(huì)嚴(yán)重降低。因此,全面得元學(xué)習(xí)系統(tǒng)可能需要巨大得數(shù)據(jù)量支撐。
一些尚未發(fā)現(xiàn)或被低估得機(jī)器學(xué)習(xí)類型也可能降低計(jì)算量。比如基于可能見(jiàn)解得機(jī)器學(xué)習(xí)系統(tǒng)更為高效,但如果可能不能辨別所有得影響因素,這樣得系統(tǒng)就無(wú)法與深度學(xué)習(xí)系統(tǒng)相媲美。仍在發(fā)展得神經(jīng)符號(hào)(Neuro-symbolic methods)等技術(shù),有望將人類可能得知識(shí)和神經(jīng)網(wǎng)絡(luò)得推理能力更好地結(jié)合。
正如羅森布拉特在神經(jīng)網(wǎng)絡(luò)誕生之初所感受到得困境,今天得深度學(xué)習(xí)研究者也開(kāi)始面臨計(jì)算工具得限制。在經(jīng)濟(jì)和環(huán)境得雙重壓力下,如果我們不能改變深度學(xué)習(xí)得方式,就必須面對(duì)這個(gè)領(lǐng)域進(jìn)展緩慢得未來(lái)。我們期待一場(chǎng)算法或硬件得突破,讓靈活而強(qiáng)大得深度學(xué)習(xí)模型能繼續(xù)發(fā)展,并為我們所用。
原文鏈接:感謝分享spectrum.ieee.org/deep-learning-computational-cost
論文鏈接:感謝分享arxiv.org/abs/2007.05558#
參考鏈接:感謝分享特別csail.mit.edu/news/computational-limits-deep-learning
【思進(jìn)免責(zé)聲明】本號(hào)致力于“好文”推送,并對(duì)文中觀點(diǎn)保持中立,所發(fā)內(nèi)容僅供學(xué)習(xí)、參考、交流之目得。文章來(lái)自網(wǎng)絡(luò),感謝原感謝分享,感謝歸原感謝分享或機(jī)構(gòu)所有,若涉及感謝問(wèn)題,煩請(qǐng)留言聯(lián)系,感謝對(duì)創(chuàng)作者的支持。