原標題:小米10背后的AI想象力 來源:闌夕
文 | 闌夕工作室
手機的想象力到底有多大?
在小米10的發(fā)布會上,這些關(guān)于手機的想象力借助AI被進一步延展開來。相比配置,AI技術(shù)在小米10上有更突出的體現(xiàn),換天技術(shù)、文檔拍照和語音合成,這些使用簡單的功能背后都積累著小米自研AI多年的技術(shù)積累。
當手機廠商大部分的產(chǎn)品性能基本相同的時候,AI技術(shù)的優(yōu)劣與否,更易使用戶感知。
這或許是小米最值得令人欣賞的地方,不是它曾經(jīng)倡導的互聯(lián)網(wǎng)模式,也不是它對于性價比的極致追求,更重要的是,它在想象力上有著比市場更超前的嗅覺。
1. 換天技術(shù)、語音合成、文檔拍照,小米10最亮眼的AI技術(shù)都在這里
在小米10上,AI技術(shù)幫助拍照實現(xiàn)了換天功能。盡管許多手機廠商也提出過類似功能,但實際上能夠達到小米10所呈現(xiàn)的效果的并不多。
小米AI實驗室通過數(shù)萬張高精度、場景覆蓋廣泛的天空圖片作為訓練集,不斷優(yōu)化模型結(jié)構(gòu),訓練出了高精度的天空分割模型。
這樣的做法下,使得小米的天空分割算法能精準分析天空和前景,邊緣識別準確,分割細膩,達到像素級摳圖標準。在包含各類場景的全面評測集上,小米換天成片率達到90%+。
通過對MIX、Picnic、Quickshot、 Vivo攝影、玩效APP等一系列軟件和小米10換天功能的對比,軟件在自拍、遠距離室外人像、復雜的城市場景和綠植等方面,都很難做到小米10的效果。
有沒有感覺所有廠家都在拼命研究相機?到了后4G時代,對于畫面的記錄,人們已經(jīng)不滿足于單個畫面的拍攝,而是更多地往視頻、短視頻、動態(tài)圖片等方向延伸。這對手機廠商的相機功能和圖像處理技術(shù)提出了更高的要求,視頻相較于圖片的拍攝以及后期,處理難度都更大。
另一個AI技術(shù)在小米10上的展現(xiàn),是通過智能算法,讓以往需要滑軌、手搖等技巧才能實現(xiàn)的鏡頭效果,不用動手機就能完成運鏡,制作vlog。如果想在視頻中增加字幕,可以直接通過語音識別的方式,自動轉(zhuǎn)化成字幕。讓用戶在使用小米10拍vlog后,后期制作的成本大大減輕。
之所以能夠達成這樣的效果,背后是小米AI實驗室做了大量的算法優(yōu)化和實時調(diào)校,把多個計算單元有機結(jié)合,最大限度發(fā)揮了手機平臺的計算性能。
語音和文檔解析方面,小米10也提出了更優(yōu)的AI解決方案。
語音正在逐步解放人們的雙手,語音技術(shù)在智能硬件,虛擬助手,智能客服,智能車載等場景中扮演者非常重要而關(guān)鍵的角色。
小米語音合成從數(shù)據(jù)積累,算法創(chuàng)新和工程優(yōu)化等多方面,實現(xiàn)了流暢的中英文合成效果,尤其是在中英文銜接處如真人般的流暢自然,無切換感。此外合成速度很快,減小了用戶的等待成本。
小米拍文檔能夠識別到圖片復雜場景中的文檔/身份證的邊緣,沿著邊緣,將其“摳”出來。根據(jù)用戶的選擇,將文檔圖片變成黑白效果/增強效果,保留細節(jié),去除陰影,增強色澤。和語音合成一樣,合成速度很快,用戶無等待感知。
值得一提的是,拍文檔功能由“小米AI實驗室武漢視覺團隊”完全獨立負責,在疫情之下他們依然交出了優(yōu)秀答卷。
僅靠列舉,小米10所能夠產(chǎn)生的想象力已超出邊界。盡管從整個智能手機行業(yè)來看,創(chuàng)新遇到瓶頸、換機潮遇冷的負面輿論不絕于耳,但依然有先驅(qū)者在其中發(fā)現(xiàn)了用戶的需求,而這些需求依然需要通過更精準、更有沉淀的技術(shù)進行解決。
2.小米AI的自研之路
羅馬不是一日建成的。相比于簡單堆砌配置,AI技術(shù)的展示更能顯示出手機廠商的前驅(qū)性。
小米10所展示的AI技術(shù),意味著小米必須在2-3年前就預想到消費者的潛在需求,并經(jīng)過長時間的實驗和測試,最終推向大眾消市場。
在這一點上,小米在2019年2月就將人工智能部拆分為獨立事業(yè)部,去年10月還加盟了國際語音頂級學者Daniel Povey。在AI自主研發(fā)這條道路上,小米顯然是有備而來。
在小米“手機+AIoT”的雙引擎戰(zhàn)略里,AI扮演了非常重要的角色。
目前在整個行業(yè),手機相機研發(fā)有一個明顯的趨勢,就是人工智能的深度整合,具體來講有兩個方面:
一個就是手機相機的軟件化和算法化,之前很多手機相機的體驗是靠硬件去做,但是最近這兩年,一些領(lǐng)先的體驗是通過軟件算法實現(xiàn)。 第二個趨勢就是算法AI化,越來越多的相機算法從傳統(tǒng)圖像處理算法轉(zhuǎn)變成AI算法。這些都在小米10上集中體現(xiàn)出來。
盡管是一家互聯(lián)網(wǎng)公司,但實際上,小米的所有產(chǎn)品,包括硬件產(chǎn)品、軟件產(chǎn)品和互聯(lián)網(wǎng)服務都需要AI來賦能。
通過小米AI實驗室的兩年研究,目前小米已經(jīng)在聲學、語音、視覺,NLP、知識圖譜、機器學習6大方向取得一系列成果。
視覺上,小米換天得到了眾多用戶的喜愛,除此之外,單攝虛化、人臉解鎖、美顏、場景識別等AI主導的功能,也早已應用在小米的系列手機上。
語音方面,小米自研的語音識別、合成、語音喚醒和聲紋識別等關(guān)鍵技術(shù)也已經(jīng)落地在手機、電視、音箱等眾多小米產(chǎn)品上。其中最新的小愛音箱Pro,就包含了“就近喚醒、全屋播放、聲源定位、多通道降噪、回聲消除、去混響”等功能。近日,小米語音團隊自研的“多通道端到端語音技術(shù)”,取得比“傳統(tǒng)多通道陣列增強模塊加單通道語音技術(shù)”更好的性能。
相比價格、商業(yè)模式,只有真正的技術(shù)實力能成為競爭對手難以逾越的門檻,小米花了兩年時間,構(gòu)筑了足夠高的城墻。
3.為了更強大的AI,值得為小米10等待一年
厚積薄發(fā)和專注極致的快體驗,二者在小米身上得到了難得的平衡。
隸屬目前霸居智能手機排行版前五的手機廠商,創(chuàng)立時間均超過10年,最長的達到了31年。在痛苦轉(zhuǎn)型上,他們都先后付出了不少代價。即使他們從功能機時代就開始打拼,手握諸多優(yōu)勢,仍然長期不能打開局面,最終還是借助智能手機的浪潮才成功突圍。
小米,不單純因為在智能手機浪潮中搶占了先機,更在于它敏銳的市場嗅覺,和它具有商業(yè)潛力的想象力。盡管行業(yè)縱然有大環(huán)境的限制,但作為最精細的電子產(chǎn)品本身,它依然存在令人著迷的想象空間,但這些想象力未必是硬件本身帶來的,而是驅(qū)動這些硬件背后的技術(shù),例如AI。
換做其他人或者很難想象,就在兩年前,消費者可供使用的手機AI功能還十分有限,人工智能更像是一個高不可攀的宏大詞匯。但截止到2019年,《2019智能手機影像技術(shù)應用觀察及趨勢分析》報告已經(jīng)指出,隨著人工智能技術(shù)在智能手機拍照領(lǐng)域的成熟運用,影像技術(shù)已經(jīng)成為影響手機銷量的重要指標之一。
2020年以后,隨著5G的普及,智能手機的影像性能和外觀設計仍將是推動創(chuàng)新的兩大源動力,在這其中,小米無疑依靠自研AI打了漂亮的開年戰(zhàn),在AI技術(shù)上的厚積薄發(fā)更能夠真正幫助一家智能手機廠商坐穩(wěn)高端的交椅。