原標(biāo)題:搜狗同傳:用 3.0 技術(shù)撬動(dòng) AI 語(yǔ)音市場(chǎng)更大版圖 來(lái)源:極客公園
「語(yǔ)言是人工智能皇冠上的一顆明珠」,王小川如此比喻。
從輸入法到搜索引擎,表達(dá)信息和獲取信息被搜狗汲取到了產(chǎn)品發(fā)展脈絡(luò)中。向 AI 時(shí)代跨越的搜狗,產(chǎn)品需要以新技術(shù)和新形態(tài)來(lái)承載。
而在 AI 商業(yè)化落地的進(jìn)程中,搜狗以自然交互和知識(shí)計(jì)算分別作為橫軸和縱軸。橫縱交匯處,便是搜狗在 AI 語(yǔ)音技術(shù)和產(chǎn)品的布局。在已成型的項(xiàng)目中,有一個(gè)產(chǎn)品顯而易見(jiàn),那就是「搜狗同傳」。
在中國(guó),從事同傳工作的,大多數(shù)是英語(yǔ)專業(yè)背景,精通全領(lǐng)域是充分而非必要條件。而面對(duì)涉及醫(yī)療、數(shù)學(xué)和物理等領(lǐng)域的會(huì)議時(shí),同傳人員并不能很好地將這些相關(guān)術(shù)語(yǔ)準(zhǔn)地翻譯。
當(dāng)學(xué)術(shù)盲點(diǎn)變成了行業(yè)痛點(diǎn),以語(yǔ)音智能見(jiàn)長(zhǎng)的科技公司便主動(dòng)出擊,抓住了同聲傳譯這一細(xì)分市場(chǎng)的機(jī)遇。迭代到 3.0 版本的搜狗同傳,已在逾千場(chǎng)大型會(huì)議上登場(chǎng)。
搜狗認(rèn)為,機(jī)器同傳的產(chǎn)品價(jià)值,主要體現(xiàn)在其致力于解決跨語(yǔ)言交流、跨語(yǔ)言信息獲取和語(yǔ)言表達(dá)的電子化記錄等障礙。若要真正實(shí)現(xiàn)這三點(diǎn),不能單純地把語(yǔ)音識(shí)別和機(jī)器翻譯做嫁接,而需要一套完整的「有機(jī)系統(tǒng)」。
搜狗同傳產(chǎn)品的迭代軌跡
從語(yǔ)音到機(jī)器視覺(jué)
作為業(yè)內(nèi)首個(gè)商用機(jī)器同傳的產(chǎn)品,搜狗同傳的初始版本要追溯至 2016 年 11 月。
「在測(cè)試級(jí)的準(zhǔn)確率波動(dòng)比較大」,這是內(nèi)部對(duì)搜狗同傳 1.0 的客觀描述。比如領(lǐng)域、口音、中英文混雜等因素,都是導(dǎo)致同傳輸出的內(nèi)容出現(xiàn)極強(qiáng)不確定性的原因?!钢挥校ㄑ葜v者)字正腔圓時(shí),準(zhǔn)確率才達(dá)到 95% 到 98%,其他時(shí)候可能只有 80%,」搜狗 AI 交互技術(shù)總監(jiān)陳偉如是說(shuō)。
三年后,同樣的舞臺(tái),相近的時(shí)間,搜狗同傳進(jìn)化到了第三代。對(duì)比初代版本,「其識(shí)別能力越來(lái)越強(qiáng),錯(cuò)誤率越來(lái)越小,穩(wěn)定性越來(lái)越好」,這是團(tuán)隊(duì)給出的全新評(píng)價(jià)。
早期同傳產(chǎn)品之所以收效甚微,恰恰是沒(méi)有很好地搭建其這套系統(tǒng)模型。陳偉指出,傳統(tǒng)的同傳產(chǎn)品掣肘于通用模型,在會(huì)議同傳場(chǎng)景下,一旦涉及專業(yè)領(lǐng)域的內(nèi)容,機(jī)器同傳的效果和準(zhǔn)確度就遠(yuǎn)不及人工同傳。
搜狗同傳 1.0 發(fā)布以來(lái)就陷入了瓶頸。每逢重大場(chǎng)合,陳偉和團(tuán)隊(duì)就忐忑不已。歸根到底,是擔(dān)心效果不好。為了加速商用化進(jìn)程,團(tuán)隊(duì)連帶推出了「?jìng)€(gè)性化私人定制」的服務(wù),就是投入人力,針對(duì)演講內(nèi)容做優(yōu)化。
在推進(jìn)的過(guò)程中團(tuán)隊(duì)發(fā)現(xiàn),由于很難把所有演講人的 PPT 和材料收全,導(dǎo)致所謂的「?jìng)€(gè)性化定制」很難在會(huì)前完成。當(dāng)產(chǎn)品上了試煉戰(zhàn)場(chǎng),疲于應(yīng)付的「下下策」總不是長(zhǎng)久之計(jì)。況且,一家科技公司不應(yīng)受困于技術(shù)。
順著個(gè)性化定制的思路,團(tuán)隊(duì)在琢磨:「如果把接口開(kāi)放給用戶,事先上傳演講稿或重點(diǎn)內(nèi)容會(huì)不會(huì)好一些?」實(shí)現(xiàn)這一點(diǎn)不難,單仍舊談不上進(jìn)步。要知道,大會(huì)演講通常是來(lái)也匆匆,去也匆匆,嘉賓上陣 PPT 馬上跟播,不可能有充裕的時(shí)間來(lái)完成私人定制。
趔趄之中,倒逼著搜狗同傳的技術(shù)團(tuán)隊(duì)研發(fā)更智能、更敏捷的同傳系統(tǒng),讓機(jī)器自覺(jué)地定制語(yǔ)境,擺脫人工干預(yù)。
「原來(lái)我們以為,人工同傳只是戴著耳機(jī)去聽(tīng)演講者在講什么,」陳偉后來(lái)了解到,同傳的過(guò)程不是全程無(wú)材料的「裸翻」。同傳師坐進(jìn)全玻璃的同傳箱之前,需要提前準(zhǔn)備一到兩天的時(shí)間,了解活動(dòng)當(dāng)天的全部背景資料。
以往的機(jī)器同傳,僅僅是通過(guò)語(yǔ)音技術(shù)來(lái)識(shí)別講述內(nèi)容。而搜狗同傳 2.0 的產(chǎn)品啟發(fā),實(shí)際上借鑒了人工同傳的流程。在同傳的過(guò)程中,除了做好語(yǔ)音識(shí)別以外,團(tuán)隊(duì)意識(shí)到,視覺(jué)信息同等重要。
實(shí)際上,」每個(gè)演講者都有一套自己的話語(yǔ)體系,」陳偉指出,基于搜狗同傳 2.0,團(tuán)隊(duì)引入 OCR 技術(shù),通過(guò)攝像頭或數(shù)據(jù)線來(lái)捕捉 PPT 內(nèi)容,算法實(shí)時(shí)在后端分析 PPT 的核心關(guān)鍵詞,搜狗同傳 3.0 的就緒度已完成了 50%。
識(shí)別翻譯協(xié)同模塊進(jìn)化前后的語(yǔ)句對(duì)比
多模態(tài)+知識(shí)圖譜=語(yǔ)境引擎
當(dāng)自動(dòng)化定制成為過(guò)去式,最新發(fā)布的搜狗同傳 3.0,內(nèi)核進(jìn)化成為了「語(yǔ)境引擎」。除了「語(yǔ)音信息+OCR」的結(jié)合方式,升級(jí)后的產(chǎn)品,最大亮點(diǎn)是在「能聽(tīng)會(huì)看」的多模態(tài)基礎(chǔ)上,注入了思考和推理能力,背后靠的是知識(shí)圖譜的加持。
從機(jī)器同傳的流程來(lái)看,當(dāng)機(jī)器視覺(jué)捕捉到核心關(guān)鍵詞之后,會(huì)根據(jù)搜狗的知識(shí)圖譜技術(shù),把相關(guān)的詞匯以及專業(yè)領(lǐng)域相關(guān)的詞語(yǔ)拓展出來(lái),作為語(yǔ)音識(shí)別和翻譯的加強(qiáng)。
這一點(diǎn)非常重要。通過(guò)語(yǔ)境引擎構(gòu)建的個(gè)性化知識(shí),團(tuán)隊(duì)在某一專業(yè)論壇做了測(cè)試評(píng)估,結(jié)果顯示其識(shí)別準(zhǔn)確率提升了 21.7%,翻譯正確率提升了 40.3%。補(bǔ)足了上一代從 PPT 獲許不到太多關(guān)鍵詞的短板。
從搜狗同傳 3.0 在某論壇的的評(píng)測(cè)效果來(lái)看,滿分為 5 分,人工同傳得分 4.08,搜狗同傳 2.0 為 3.41 分,搜狗同傳 3. 為 3.82 分?!高@說(shuō)明這說(shuō)明 3.0 的系統(tǒng)距離人工同傳的水平更加接近,它更像一個(gè)專家和內(nèi)行一樣,去解讀和翻譯大會(huì),」陳偉表示
以搜狗同傳 3.0 實(shí)際應(yīng)用效果為例。案例一的背景是圍繞阿爾法狗和李世石的人機(jī)大戰(zhàn)?!竿蹲印故且粋€(gè)圍棋術(shù)語(yǔ),沒(méi)有語(yǔ)境的前提下,2.0 版本會(huì)把這一詞匯識(shí)別為「投資」,但 3.0 版本可以根據(jù) PPT 的內(nèi)容,拓展出「投子」的術(shù)語(yǔ)。
類似的案例還有「羅輯思維」。搜狗同傳 2.0 的系統(tǒng)沒(méi)有辦法捕捉語(yǔ)境信息去做優(yōu)化和增強(qiáng)。3.0 版本,系統(tǒng)根據(jù)羅振宇的知識(shí)圖譜做拓展,自動(dòng)判定跟他密切相關(guān)的是「羅輯思維」,而不是「邏輯思維」。
值得一提的是,3.0 版本在英文詞匯方面,對(duì)觀眾更加友好。例如在醫(yī)學(xué)領(lǐng)域,「INI」對(duì)應(yīng)的是「國(guó)際神經(jīng)科學(xué)研究所」的中文譯稱。以往,機(jī)器同傳的結(jié)果會(huì)直接顯示「INI」,普通聽(tīng)眾很可能不太清楚其具體含義,基于機(jī)器對(duì)知識(shí)圖譜進(jìn)行拓展查詢,在搜狗的專業(yè)中英文知識(shí)庫(kù)中,就可以找到與之相應(yīng)的中文解釋。
語(yǔ)境引擎是搜狗同傳3.0取得突破的關(guān)鍵
2B 最終落向 2C
「我們認(rèn)為未來(lái)面向人和機(jī)器交互過(guò)程中,一定是多模態(tài)的」,搜狗提倡的技術(shù)主張,使機(jī)器同傳和同類產(chǎn)品拉開(kāi)了一代之差?!杆麄冞€是以同傳為主,我們已經(jīng)從語(yǔ)音跨到了多模態(tài),并把對(duì)于知識(shí)和語(yǔ)音的理解放進(jìn)去,使同傳開(kāi)始具備一定的認(rèn)知能力。」
必須要承認(rèn)的是,無(wú)論是搜狗同傳還是其他玩家,大家目前距離頂級(jí)同傳的水準(zhǔn)還有很長(zhǎng)的路要走。雖然真正到金字塔塔尖的同傳人才十分稀少,但陳偉認(rèn)為目前的機(jī)器同傳能力和頂級(jí)人工同傳相比,仍存在不小的差距。
顯然,針對(duì)極高規(guī)格的會(huì)議場(chǎng)景,現(xiàn)階段的機(jī)器同傳還達(dá)不到要求。不過(guò)在復(fù)雜要求不高,輔助觀眾和聽(tīng)眾跨語(yǔ)言交流的用途中,其發(fā)揮的作用愈發(fā)明顯。因此,行業(yè)應(yīng)該要抱著向人工同傳學(xué)習(xí)的態(tài)度,「而不能說(shuō)今天六級(jí),明天八級(jí),后天機(jī)器超越人工了,這不是特別好的心態(tài)?!?/p>
除了大會(huì)演講這種 2B 同傳場(chǎng)景,未來(lái),機(jī)器同傳可向記者采訪、跨國(guó)辦公會(huì)議、中英文視頻直播、字幕翻譯等場(chǎng)景延展。這些應(yīng)用場(chǎng)景最主要的挑戰(zhàn),是怎么保證機(jī)器同傳的穩(wěn)定效果,考驗(yàn)的是采集設(shè)備、網(wǎng)絡(luò)環(huán)境、識(shí)別能力等?!割A(yù)計(jì)迭代到 3.5 的版本,技術(shù)沉淀后的能力,就可以向這些場(chǎng)景做覆蓋了?!?/p>
盡管搜狗通過(guò)技術(shù)迭代不斷地教育市場(chǎng),不過(guò)機(jī)器同傳并沒(méi)有在過(guò)去一兩年迎來(lái)爆發(fā),搜狗同傳也并沒(méi)有通過(guò)大會(huì)獲取收入。其中很重要的因素在于,「跨代躍進(jìn)的效果提升,需要一個(gè)研發(fā)周期,在這個(gè)過(guò)程中不能盲目地向 B 端市場(chǎng)狂推?!龟悅ッ鞔_指出,搜狗同傳更多的是代表了搜狗在 AI 方面的核心競(jìng)爭(zhēng)力和技術(shù)驅(qū)動(dòng)創(chuàng)新上的成果,所以「不會(huì)是一個(gè)很賺錢(qián)的行業(yè)」。
而搜狗在 AI 語(yǔ)音商業(yè)化的進(jìn)程,最終的指向還是 2C。陳偉預(yù)判,未來(lái)各種各樣的場(chǎng)合都可能用到搜狗同傳的技術(shù),通過(guò)同傳打磨的能力也可以反向用于搜狗的 C 端產(chǎn)品?!肝覀兿M运压吠瑐髟诖髸?huì)場(chǎng)景和 B 端的經(jīng)驗(yàn)、數(shù)據(jù)為基礎(chǔ),不斷打磨 2B 輸出的能力,最后反哺到 2C 端的市場(chǎng)中。」
責(zé)任編輯:臥蟲(chóng)
圖片來(lái)源:VPhoto、搜狗