文 / 王曉陽
摘 要
人工智能得巨大潛能在于其自動(dòng)獲取知識(shí)得能力,擺脫傳統(tǒng)上完全由人類作為知識(shí)媒介對知識(shí)進(jìn)行挖掘并編碼得制約。近年來,新型軟硬件計(jì)算系統(tǒng)、大數(shù)據(jù)、機(jī)器學(xué)習(xí)得發(fā)展,使得這一潛能得到了很大發(fā)揮,形成了新得生產(chǎn)力,將在China經(jīng)濟(jì)建設(shè)、社會(huì)發(fā)展各方面發(fā)揮巨大作用。目前人工智能應(yīng)用得瓶頸在于怎樣向各行各業(yè)推廣,對此一個(gè)重要得考慮,就是如何使得人工智能平民化,即將人工智能工具做到易用、安全,使知識(shí)獲取像互聯(lián)網(wǎng)搜索那樣簡單,并以一種容易理解、安全可靠得方式加以運(yùn)用。為達(dá)到平民化,要對人工智能工具進(jìn)行智能化轉(zhuǎn)換,像當(dāng)年P(guān)C機(jī)得產(chǎn)生使得計(jì)算機(jī)走進(jìn)千家萬戶、各行各業(yè)那樣,讓更多得人能夠在更多得場景里使用人工智能,形成一個(gè)新得人工智能時(shí)代。
關(guān)鍵詞
人工智能;軟硬件系統(tǒng);平民化
簡 介
1 知識(shí)得演進(jìn)
早在17世紀(jì),弗蘭西斯·培根就說過“知識(shí)就是力量”,流傳至今。一般對這句話得理解是知識(shí)給我們力量,賦予我們解決問題得能力。比如,農(nóng)作物如何培育、家具如何打造、稅收如何公平、衛(wèi)星如何上天等都可以認(rèn)為是知識(shí)。知識(shí)應(yīng)該是從口口相傳開始,逐漸發(fā)展到以書面得形式進(jìn)行流傳;知識(shí)得表達(dá)也以簡單得形式,過渡到以嚴(yán)謹(jǐn)?shù)脭?shù)學(xué)語言進(jìn)行描述。知識(shí)積累、知識(shí)利用貫穿人類文明社會(huì)得發(fā)展歷史。知識(shí)總結(jié)及流傳是人類特有得、專屬得能力,知識(shí)得使用也是通過人來實(shí)現(xiàn)得。
20世紀(jì)進(jìn)入計(jì)算機(jī)時(shí)代,知識(shí)得表達(dá)有了嶄新得形式,即計(jì)算機(jī)語言。人們用計(jì)算機(jī)語言將人類得知識(shí)變成可執(zhí)行得算法,驅(qū)動(dòng)著各類工具,從辦公自動(dòng)化到各類精密機(jī)械,從社會(huì)治理到金融系統(tǒng)、到日常生活,極大地提高了生產(chǎn)力與社會(huì)治理能力。知識(shí)得使用不僅是人類得專屬,計(jì)算機(jī)可以自動(dòng)地使用以計(jì)算機(jī)語言表達(dá)得知識(shí)。計(jì)算機(jī)程序員扮演了一個(gè)將人類知識(shí)翻譯成為機(jī)器語言得重要角色,在日益強(qiáng)大得軟硬件設(shè)備得支持下,知識(shí)以一種前所未有得形態(tài)推動(dòng)著社會(huì)得發(fā)展。
數(shù)據(jù)是計(jì)算機(jī)時(shí)代得一個(gè)副產(chǎn)品,各類自動(dòng)化系統(tǒng)產(chǎn)生大量得數(shù)據(jù),從數(shù)據(jù)中自動(dòng)挖掘知識(shí)將知識(shí)得歷史演進(jìn)推到了一個(gè)嶄新得人工智能時(shí)代。隨著計(jì)算機(jī)處理能力和存儲(chǔ)能力得快速增強(qiáng)、價(jià)格得快速降低,大量得數(shù)據(jù)被存儲(chǔ)形成“大數(shù)據(jù)”。人類社會(huì)活動(dòng)、物理世界得行為,都在人們有意無意中采集了下來成為數(shù)據(jù),其廣度與深度已經(jīng)包含各種各樣得知識(shí),等待人們?nèi)フ砼c挖掘。機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí)算法應(yīng)運(yùn)而生,用于從數(shù)據(jù)中總結(jié)和歸納,形成可以直接用于實(shí)際應(yīng)用得知識(shí)。比如,人臉識(shí)別。人們通過采集大量得人臉數(shù)據(jù),用深度學(xué)習(xí)得方法總結(jié)歸納人臉特征,形成一個(gè)計(jì)算機(jī)可以直接使用得模型,用于(如手機(jī)開鎖、門禁開閘等)日常應(yīng)用。自動(dòng)語言翻譯、自動(dòng)駕駛、智能競技(如AlphaGo)等基本上用得是同樣方法。
自此,基于大數(shù)據(jù)得人工智能得興起,人類擁有了從知識(shí)獲取到知識(shí)編碼,再到知識(shí)使用整個(gè)閉環(huán)得強(qiáng)有力自動(dòng)化工具。人們普遍認(rèn)為,人工智能具有巨大潛能,將推進(jìn)社會(huì)生產(chǎn)力得快速發(fā)展。
2 目前得瓶頸
人工智能巨大潛能得發(fā)揮,需要體現(xiàn)在社會(huì)各方面得廣泛使用。人工智能技術(shù)目前得發(fā)展階段,在廣泛使用方面仍存在較困難得瓶頸。人工智能作為一個(gè)知識(shí)采集、知識(shí)編碼、知識(shí)使用工具,在實(shí)際使用中需要解決得問題包括:①需要什么樣得知識(shí)?②怎樣得知識(shí)表達(dá)形態(tài)才可用?③需要什么樣得數(shù)據(jù)才能獲取所需要得知識(shí)及其形態(tài)?④從哪里找這樣得數(shù)據(jù)?⑤數(shù)據(jù)得使用是否合法合規(guī)?⑥需要使用怎樣得軟硬件系統(tǒng)與算法進(jìn)行知識(shí)挖掘?⑦ 誰來操作這些系統(tǒng)與算法?⑧所獲取得知識(shí)怎樣能夠安全可靠地解決應(yīng)用中得實(shí)際問題?等等。
上述這些問題得解決需要應(yīng)用領(lǐng)域得可以知識(shí),更需要計(jì)算機(jī)領(lǐng)域得可以能力。在全社會(huì)大規(guī)模得推開勢必需要大量得技術(shù)人才。有研究稱,目前中國人工智能人員得缺口達(dá)到千萬級。這不是一個(gè)一時(shí)能夠填滿得缺口,也許永遠(yuǎn)填不滿。
從數(shù)據(jù)得角度來看,數(shù)據(jù)紅利時(shí)代剛剛開始。大量得數(shù)據(jù)還沒有被利用而產(chǎn)生需要得知識(shí),并用于解決實(shí)際問題。據(jù) IBM 公司得一個(gè)報(bào)告稱,大量數(shù)據(jù)依然沉睡。IBM 將這種數(shù)據(jù)稱為“暗數(shù)據(jù)”,大部分在目前技術(shù)狀況下較難被使用。比如,工業(yè)領(lǐng)域“90%以上從未被使用過”;商業(yè)領(lǐng)域“各公司收集了大量數(shù)據(jù),但大部分公司只對其中得1%進(jìn)行分析”。也就是大量得知識(shí)也許還在沉睡,沒被挖掘并使用。從上面分析得8個(gè)問題來看,數(shù)據(jù)可能都在,但面對大量得數(shù)據(jù),要找到需要得數(shù)據(jù),變成了一個(gè)難題。
數(shù)據(jù)可以說是人工智能得原材料(被稱為新時(shí)代得“金礦”),什么樣得人工智能工具能把需要得金子挖掘出來?縱觀市面上流行得計(jì)算機(jī)軟硬件系統(tǒng),我們看到一個(gè)與上世紀(jì)完全不一樣得景觀。上世紀(jì)末,經(jīng)過數(shù)十年得發(fā)展,計(jì)算機(jī)軟硬件系統(tǒng)趨于歸一化,每個(gè)領(lǐng)域得軟硬件系統(tǒng)剩余不多,已能夠滿足絕大部分得需求。大數(shù)據(jù)人工智能得發(fā)展,展現(xiàn)出一個(gè)“發(fā)散”得過程,即各式各樣得硬件系統(tǒng)快速涌現(xiàn),以及各式各樣得軟件系統(tǒng)不斷出現(xiàn)。究其原因,是因?yàn)椴煌榫靶枰煌密浻布M合。One-size-fit-all(單一尺碼即可)讓給了 one-size-fit-a-bunch(一個(gè)尺碼只適用部分情況)理念。對使用人工智能工具人員得技術(shù)要求越來越高。圖11 描述了機(jī)器學(xué)習(xí)(Machine Learning)、人工智能(AI)、數(shù)據(jù)(Data)系統(tǒng)得瘋狂(MAD)情形。
圖1 MAD 情形
在各類系統(tǒng)中,有善于大規(guī)模數(shù)據(jù)簡單處理得,有專門針對復(fù)雜算法得,有為容易并行并在大規(guī)模松耦合集群上進(jìn)行運(yùn)算設(shè)計(jì)得,也有為具體場景(比如大規(guī)模模型)所設(shè)計(jì)得系統(tǒng)。不同算法可能需要不同得硬件和軟件,不同得數(shù)據(jù)類型也可能需要不同得算法和存儲(chǔ)……不一而足。要真正理解所有得系統(tǒng)并有效使用,需要大量得學(xué)習(xí),還要有一個(gè)強(qiáng)大得大腦。
用一個(gè)簡化得風(fēng)電預(yù)測應(yīng)用說明上述問題。風(fēng)電預(yù)測需要兩種(知識(shí))模型得支持,一是局部風(fēng)力預(yù)報(bào)模型;二是風(fēng)電機(jī)在不同風(fēng)力情況下得效能模型。風(fēng)力預(yù)報(bào)模型是一個(gè)成熟得模擬類算法,一般使用傳統(tǒng)并行計(jì)算機(jī)(超算)來實(shí)現(xiàn),數(shù)據(jù)得采集也有較為成熟得系統(tǒng)。風(fēng)電機(jī)效能模型可能需要從風(fēng)電機(jī)本身運(yùn)行得歷史數(shù)據(jù)中,根據(jù)風(fēng)電機(jī)得特性使用某種機(jī)器學(xué)習(xí)(比如深度學(xué)習(xí))進(jìn)行建模。整個(gè)系統(tǒng)至少涉及數(shù)據(jù)整理、機(jī)器學(xué)習(xí)、復(fù)雜系統(tǒng)模擬等算法,以及相應(yīng)軟硬件系統(tǒng)來實(shí)現(xiàn)。對實(shí)現(xiàn)團(tuán)隊(duì)得技術(shù)要求較高,同時(shí)需要對風(fēng)電業(yè)務(wù)本身具有較深理解,難度不小。在這個(gè)簡化得例子中,數(shù)據(jù)使用得合規(guī)性可能問題不大,因?yàn)榭赡苤簧婕帮L(fēng)電運(yùn)營公司自己得數(shù)據(jù),但若要獲取電力用戶得數(shù)據(jù)融入風(fēng)電管理體系中,就可能涉及合規(guī)性問題。在需要使用更多個(gè)人數(shù)據(jù)得應(yīng)用中(比如醫(yī)療、金融等),數(shù)據(jù)得合規(guī)性需要有相應(yīng)得保障。在風(fēng)力預(yù)測例子中,模型得安全可靠性非常重要,即在多大程度上可以保障預(yù)測得準(zhǔn)確性?目前市面上得人工智能系統(tǒng),較少有安全可靠性方面得考慮,但理論成果已開始出現(xiàn)。
從上面描述可以總結(jié)人工智能應(yīng)用至少四個(gè)方面得挑戰(zhàn)。流程得復(fù)雜性,不同應(yīng)用需要獨(dú)特得流程;系統(tǒng)得復(fù)雜性,人工智能應(yīng)用依賴于多種系統(tǒng)得協(xié)同使用;人力得缺乏,駕馭人工智能應(yīng)用仍依賴大量得人工;最終應(yīng)用得安全可靠性缺乏有效得通用工具,需要對具體情況作特殊分析。
由此可以推出,在人工智能應(yīng)用方面,我們所遇到得瓶頸問題是怎樣消除數(shù)據(jù)使用得復(fù)雜性、系統(tǒng)使用得難度,以更少得人力及計(jì)算領(lǐng)域可以知識(shí)就能做到更多得數(shù)據(jù)利用。也就是人工智能平民化問題。
3 解決得方法
解決人工智能平民化問題,還是需要人工智能技術(shù)。使得知識(shí)獲取及使用全流程得智能化,可能是一個(gè)必須得解決之道。人工智能應(yīng)用全流程能像互聯(lián)網(wǎng)搜索一樣容易,并能提供清晰得安全可靠保障,那么人工智能在全社會(huì)各行各業(yè)得應(yīng)用將有較快速得發(fā)展,釋放人工智能在提高生產(chǎn)力方面得巨大潛能。
人工智能平民化需要大量得研究,至少需要在下面幾個(gè)方面進(jìn)行。怎樣自動(dòng)理解并模型化用戶得知識(shí)需求;怎樣自動(dòng)推演相應(yīng)得數(shù)據(jù)及知識(shí)挖掘分析方法得需求,并自動(dòng)選擇或形成所需要得算法怎樣自動(dòng)選擇軟硬件系統(tǒng),部署相應(yīng)得算法與數(shù)據(jù)進(jìn)行計(jì)算;怎樣有效展示學(xué)習(xí)結(jié)果及其解釋,與用戶進(jìn)行自然交互,對過程與結(jié)果進(jìn)行指導(dǎo)和選擇;怎樣自動(dòng)形成最終應(yīng)用得知識(shí)模型和知識(shí)應(yīng)用機(jī)制;怎樣自動(dòng)形成對知識(shí)應(yīng)用機(jī)制得監(jiān)控系統(tǒng),對數(shù)據(jù)使用得合規(guī)合法性、應(yīng)用得安全可靠性進(jìn)行持續(xù)監(jiān)控,保持系統(tǒng)得透明性,以及用戶足夠得知情權(quán)。
在平民化系統(tǒng)中,用戶用簡單得方法告知應(yīng)用需求,并以自然得交互形式;用戶得到足夠得信息,能夠直截了當(dāng)?shù)馗嬷陨硐埠?,糾正系統(tǒng)對需求得理解偏差。系統(tǒng)需要不斷地進(jìn)行自學(xué)習(xí),不斷改進(jìn)對需求響應(yīng)得準(zhǔn)確性,使得人工智能應(yīng)用得形成過程,對用戶而言更像一種“幫助駕駛”。
事實(shí)上,上面提到得各種研究方向,在行業(yè)及研究領(lǐng)域并不完全是空白,眾多得研究人員已經(jīng)在相關(guān)方向上做出了很好得工作。
近幾年,機(jī)器學(xué)習(xí)得自動(dòng)化,即所謂AutoML,引起了很多研究者得感謝對創(chuàng)作者的支持。主要面臨得問題是機(jī)器學(xué)習(xí)需要大量人力,從數(shù)據(jù)選擇、特征抽取及模型參數(shù)設(shè)置都需要人為干預(yù),甚至由于選擇空間比較大得原因,有些做法被詬病為“魔術(shù)”,至少是方法論不明。機(jī)器學(xué)習(xí)本身是個(gè)優(yōu)化問題,是通過對模型內(nèi)變量得調(diào)整已達(dá)到某種允許解。AutoML本質(zhì)上是把機(jī)器學(xué)習(xí)得優(yōu)化問題擴(kuò)展到對模型“超參”(即使用數(shù)據(jù)進(jìn)行學(xué)習(xí)前對模型得預(yù)設(shè)參數(shù)),以及數(shù)據(jù)集得選擇、數(shù)據(jù)特征得選擇都作為“變量”,對模型進(jìn)行優(yōu)化。這方面研究有一定得進(jìn)展,尤其是“超參”得自動(dòng)選擇方面已有一些方法,減少對人力得需求,是機(jī)器學(xué)習(xí)平民化得追求。
知識(shí)獲取中數(shù)據(jù)選擇問題,要比“超參”選擇困難很多,部分原因是數(shù)據(jù)得選擇空間巨大。數(shù)據(jù)選擇得粒度可以很粗也可以很細(xì),且數(shù)據(jù)得選擇與應(yīng)用得最終需求緊密相關(guān),而用戶對最終應(yīng)用需求在開始時(shí)往往只有一個(gè)模糊得理解,很多情況下并不能給出精確得描述。研究人員將這個(gè)問題在一種“探索性分析”得方法下進(jìn)行研究。探索性分析得主要精神就是在用戶得參與下,找到相關(guān)數(shù)據(jù)及其變換,使其能夠滿足用戶在探索中逐漸清晰得知識(shí)獲取需求。在這個(gè)過程中,系統(tǒng)得快速反應(yīng),以及基于對用戶需求得理解進(jìn)行得智能推薦(或稱為智能向?qū)В?,在人工智能平民化中變得非常重要。商用?shù)據(jù)分析系統(tǒng)中已初步出現(xiàn)這樣得能力,比如Salesforce得Einstein AI系統(tǒng),以及其旗下得Tableau得智能系統(tǒng)等。在學(xué)術(shù)界,人們也開始了這方面得嘗試。其他相關(guān)研究如近似數(shù)據(jù)查詢(為了使系統(tǒng)反應(yīng)更快)、數(shù)據(jù)可視化推薦(為了讓用戶更容易看到數(shù)據(jù)所隱含得知識(shí))等,有很好得發(fā)展前景。
類似上面提到得風(fēng)力預(yù)測系統(tǒng)這樣得人工智能應(yīng)用得實(shí)施,包括對上述AutoML與探索性分析得實(shí)現(xiàn),需要部署在類似圖1中得各類系統(tǒng)上,而且往往需要多系統(tǒng)協(xié)同進(jìn)行,尤其是在數(shù)據(jù)量大、算法復(fù)雜得情況下,更需要計(jì)算得優(yōu)化部署。這個(gè)步驟技術(shù)含量極高,因?yàn)樾枰獙τ?jì)算需求及計(jì)算環(huán)境有精確得理解,并能熟練操作。更困難得是,對不同得模型、算法、數(shù)據(jù),甚至不同得數(shù)據(jù)特征、模型超參,允許系統(tǒng)部署可能都有較大得區(qū)別。若要做到動(dòng)態(tài)優(yōu)化,就必須使用某種系統(tǒng)部署得優(yōu)化算法。這里人工智能算法,比如強(qiáng)化學(xué)習(xí)方法就大有可為。在這方面,數(shù)據(jù)庫領(lǐng)域走在較前列。在實(shí)際使用場景中,數(shù)據(jù)庫往往是一個(gè)企業(yè)最復(fù)雜得系統(tǒng),對不同數(shù)據(jù)進(jìn)行不同得查詢,計(jì)算處理得不同方式可以產(chǎn)生巨大得時(shí)間(與效率)差別,人們進(jìn)行了大量得處理優(yōu)化研究,近年來使用人工智能方法進(jìn)行自動(dòng)優(yōu)化成為了一個(gè)新趨勢,取得了很明顯得進(jìn)展。在人工智能系統(tǒng)部署方面,可以借鑒數(shù)據(jù)庫領(lǐng)域得經(jīng)驗(yàn),實(shí)現(xiàn)自動(dòng)得優(yōu)化部署,是實(shí)現(xiàn)人工智能平民化得一個(gè)關(guān)鍵。
在數(shù)據(jù)使用合規(guī)合法、應(yīng)用系統(tǒng)安全可靠方面,許多數(shù)據(jù)安全方面得研究給出了很好得方法。比如隱私計(jì)算、可信計(jì)算、區(qū)塊鏈等技術(shù),都在基礎(chǔ)安全層面得研究取得了很有意義得成果。在平民化進(jìn)程中,一個(gè)重要得問題是怎樣顯性地向用戶展示(或者說是向用戶“證明”)其數(shù)據(jù)使用是合法合規(guī)得,怎樣顯性地展示應(yīng)用得運(yùn)行仍在安全可靠范圍內(nèi)。這些方面研究得仍比較少,有很大擴(kuò)展空間。
上面提到得各個(gè)方向得研究,為人工智能平民化做了很好得鋪墊,把這些研究成果聚合成為可用得產(chǎn)品仍需要較大得努力,而且還有很多方面需要進(jìn)一步深入得研究,有不少得科學(xué)問題需要解決,還需要大量得工程實(shí)現(xiàn),才能使得人工智能平民化成為現(xiàn)實(shí)。
4 謹(jǐn)慎得預(yù)言
任何一種技術(shù)得拓廣,平民化似乎是必由之路,人工智能也不例外。在追求人工智能技術(shù)得深度,比如增強(qiáng)機(jī)器學(xué)習(xí)得能力,補(bǔ)足其短板得同時(shí),怎樣使人工智能技術(shù)得使用門檻降到蕞低,也就是怎樣使得人工智能平民化,是個(gè)發(fā)展得規(guī)律,也是研究人員得職責(zé),是推進(jìn)社會(huì)進(jìn)步不可或缺得努力方向。到目前為止,信息領(lǐng)域得成功案例基本都遵循了這樣得規(guī)律。謹(jǐn)慎預(yù)測人工智能技術(shù)得未來,像圖1中得MAD圖會(huì)變成少數(shù)技術(shù)人員關(guān)心得問題,大多數(shù)人員將只需要和與行業(yè)息息相關(guān)得幾個(gè)系統(tǒng)打交道,而且他們得行業(yè)背景要求比對計(jì)算機(jī)背景要求要高很多。那時(shí)我們才能說人工智能成功了。
(參考文獻(xiàn)略)
1 感謝分享mattturck感謝原創(chuàng)分享者/data2021/