国产高清吹潮免费视频,老熟女@tubeumtv,粉嫩av一区二区三区免费观看,亚洲国产成人精品青青草原

二維碼
企資網(wǎng)

掃一掃關(guān)注

當(dāng)前位置: 首頁(yè) » 企資頭條 » 產(chǎn)業(yè) » 正文

蘋(píng)果發(fā)布論文,揭示 Siri 的秘密

放大字體  縮小字體 發(fā)布日期:2020-02-04 08:07:19    瀏覽次數(shù):54
導(dǎo)讀

原標(biāo)題:蘋(píng)果發(fā)布論文,揭示 Siri 的秘密 來(lái)源:雷鋒網(wǎng)原標(biāo)題:蘋(píng)果發(fā)布論文,揭示 Siri 的秘密蘋(píng)果公司的跨平臺(tái) Siri 虛擬助手在全球有著超過(guò) 5 億用戶(hù),顯然,語(yǔ)音識(shí)別是蘋(píng)果感興趣的重要領(lǐng)

原標(biāo)題:蘋(píng)果發(fā)布論文,揭示 Siri 的秘密 來(lái)源:雷鋒網(wǎng)

原標(biāo)題:蘋(píng)果發(fā)布論文,揭示 Siri 的秘密

蘋(píng)果公司的跨平臺(tái) Siri 虛擬助手在全球有著超過(guò) 5 億用戶(hù),顯然,語(yǔ)音識(shí)別是蘋(píng)果感興趣的重要領(lǐng)域之一。

上周,蘋(píng)果公司發(fā)表了一系列預(yù)印本研究論文,就如何改進(jìn)語(yǔ)音觸發(fā)檢測(cè)和說(shuō)話人驗(yàn)證,以及多說(shuō)話人的語(yǔ)言識(shí)別技術(shù)進(jìn)行了研究。

揚(yáng)聲器驗(yàn)證和語(yǔ)音觸發(fā)檢測(cè)

在第一篇論文中,一組蘋(píng)果研究人員提出了一個(gè)訓(xùn)練過(guò)的人工智能模型,這個(gè)模型既能執(zhí)行自動(dòng)語(yǔ)音識(shí)別任務(wù),也能執(zhí)行說(shuō)話人識(shí)別任務(wù)。

正如他們?cè)谡兴忉尩?,語(yǔ)音助手識(shí)別的命令通常以觸發(fā)短語(yǔ)(例如,“嘿,Siri”)為前綴,檢測(cè)這個(gè)觸發(fā)短語(yǔ)涉及兩個(gè)步驟。

首先,人工智能必須判斷輸入音頻中的語(yǔ)音內(nèi)容是否與觸發(fā)短語(yǔ)的語(yǔ)音內(nèi)容相匹配(語(yǔ)音觸發(fā)檢測(cè));其次,人工智能必須判斷說(shuō)話者的語(yǔ)音是否與注冊(cè)用戶(hù)或用戶(hù)的語(yǔ)音相匹配(語(yǔ)音驗(yàn)證)。

通常情況下,這兩項(xiàng)任務(wù)都是被獨(dú)立考慮的。但有合著者假設(shè),對(duì)語(yǔ)音發(fā)起者的了解可能有助于推斷出聲音信號(hào)中的語(yǔ)音內(nèi)容,反之亦然,這將有助于對(duì)這兩種屬性進(jìn)行評(píng)估。

對(duì)此,研究人員設(shè)計(jì)了三套能夠?qū)W習(xí)語(yǔ)音和說(shuō)話人信息的模型,并對(duì)一組數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)包含超過(guò) 16000 小時(shí)的帶注釋的樣本,其中 5000 小時(shí)的音頻有語(yǔ)音標(biāo)簽(其余的為說(shuō)話人標(biāo)簽)。

不僅如此,還有超過(guò) 100 名受試者使用智能揚(yáng)聲器設(shè)備在一系列聲學(xué)設(shè)置中為語(yǔ)料庫(kù)做出貢獻(xiàn),包括安靜的房間、來(lái)自房間內(nèi)電視或廚房設(shè)備的外部噪音,以及錄音機(jī)以大音量播放音樂(lè)。

值得一提的是,來(lái)自電視、廣播和播客的 2000 小時(shí)不包含觸發(fā)短語(yǔ)的連續(xù)音頻記錄也被添加進(jìn)來(lái),以此來(lái)測(cè)量“誤報(bào)”率。

這些模型顯示出了學(xué)習(xí)語(yǔ)音和說(shuō)話人信息的能力,同時(shí)在相同數(shù)量的參數(shù)下(雷鋒網(wǎng)按,控制訓(xùn)練過(guò)程某些屬性的變量),每個(gè)任務(wù)的準(zhǔn)確性至少與基線模型相同。

事實(shí)上,在提出的三種模型中,有一種在“多重”設(shè)置下的表現(xiàn)優(yōu)于說(shuō)話者驗(yàn)證基線,在文本無(wú)關(guān)的任務(wù)中相對(duì)于基線提高了 7.6%。

研究人員認(rèn)為,這樣的實(shí)驗(yàn)結(jié)果是十分有趣的,因?yàn)檫@些模型是使用不相關(guān)的數(shù)據(jù)集訓(xùn)練的,也就是說(shuō),每個(gè)音頻樣本要么有語(yǔ)音標(biāo)簽,要么有說(shuō)話人標(biāo)簽,從來(lái)沒(méi)有兩者都有。

通過(guò)對(duì)結(jié)果的觀察,研究人員提出了一種靈活的設(shè)計(jì),通過(guò)連接不同的任務(wù)的訓(xùn)練數(shù)據(jù),而不是為每個(gè)訓(xùn)練示例獲取多個(gè)標(biāo)簽,從而在多個(gè)相關(guān)任務(wù)上訓(xùn)練模型。從實(shí)用的角度來(lái)看,這樣能夠在兩個(gè)任務(wù)之間共享計(jì)算可以節(jié)省設(shè)備內(nèi)存、計(jì)算時(shí)間或延遲,以及消耗的電量/電池。

錯(cuò)誤觸發(fā)緩解

在研究中,有一項(xiàng)補(bǔ)充研究減少了錯(cuò)誤觸發(fā)的發(fā)生,也就是說(shuō),語(yǔ)音助手有意地忽略了像 Siri 這樣的語(yǔ)音助手的語(yǔ)音。

研究人員表示,他們使用了圖形神經(jīng)網(wǎng)絡(luò)(GNN),這是一種操作在圖形結(jié)構(gòu)上的人工智能模型,其中每個(gè)節(jié)點(diǎn)都與一個(gè)標(biāo)簽相關(guān)聯(lián),目標(biāo)是在沒(méi)有基礎(chǔ)事實(shí)的情況下預(yù)測(cè)節(jié)點(diǎn)的標(biāo)簽。

在論文中,研究人員寫(xiě)道:

語(yǔ)音觸發(fā)的智能助手通常在開(kāi)始監(jiān)聽(tīng)用戶(hù)請(qǐng)求之前就會(huì)檢測(cè)到一個(gè)觸發(fā)短語(yǔ)……錯(cuò)誤的觸發(fā)通常來(lái)自于背景噪音或聽(tīng)起來(lái)類(lèi)似于觸發(fā)短語(yǔ)的語(yǔ)音。因此,減少誤觸發(fā)是構(gòu)建以隱私為中心的非侵入性智能助手的一個(gè)重要方面。

在未來(lái)的工作中,該團(tuán)隊(duì)計(jì)劃將基于GNN 的處理擴(kuò)展到其他任務(wù),例如用戶(hù)意圖分類(lèi)。

多語(yǔ)種說(shuō)話人識(shí)別

在另一篇論文中,蘋(píng)果研究人員探索了一種針對(duì)多語(yǔ)言使用者量身定制的說(shuō)話人語(yǔ)言識(shí)別系統(tǒng)。

他們表示,語(yǔ)音識(shí)別系統(tǒng)對(duì)大多數(shù)語(yǔ)言都有很高的準(zhǔn)確性。但是,當(dāng)有多重語(yǔ)言出現(xiàn)時(shí),這個(gè)語(yǔ)言識(shí)別系統(tǒng)的表現(xiàn)就不盡如人意了。因此,基于這樣的實(shí)施情況,研究人員決定開(kāi)展說(shuō)話人語(yǔ)言識(shí)別系統(tǒng)的工作。

值得注意的是,《華盛頓郵報(bào)》近期委托進(jìn)行的一項(xiàng)研究顯示,谷歌和亞馬遜生產(chǎn)的受歡迎的智能音箱聽(tīng)懂本土用戶(hù)的語(yǔ)音比聽(tīng)懂非美式口音的概率高出了 30%。

同時(shí),像 Switchboard 這樣的語(yǔ)料庫(kù)也已經(jīng)被證明對(duì)來(lái)自國(guó)內(nèi)特定地區(qū)的使用者存在可測(cè)量的傾斜,這個(gè)語(yǔ)料庫(kù)還是被 IBM 和微軟等公司用來(lái)衡量語(yǔ)音模型錯(cuò)誤率的數(shù)據(jù)集。

針對(duì)這種情況,合著者將有關(guān)使用模式的知識(shí)整合到一個(gè)聽(tīng)寫(xiě)系統(tǒng)中,該系統(tǒng)能夠?yàn)閬?lái)自 60 多個(gè)地區(qū)的演講者做出決策。

其中,聲學(xué)子模型將根據(jù)語(yǔ)音信號(hào)所傳遞的證據(jù)進(jìn)行預(yù)測(cè),而上下文感知預(yù)測(cè)組件則考慮了各種交互上下文信號(hào),通過(guò)這兩方面的預(yù)測(cè),來(lái)選擇最優(yōu)的單語(yǔ)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)。

據(jù)了解,上下文信號(hào)包含了有關(guān)發(fā)出聽(tīng)寫(xiě)請(qǐng)求的條件的信息,包括有關(guān)已安裝的聽(tīng)寫(xiě)區(qū)域、當(dāng)前選擇的聽(tīng)寫(xiě)區(qū)域以及用戶(hù)在發(fā)出請(qǐng)求之前是否切換了聽(tīng)寫(xiě)區(qū)域的信息。

重要的是,它們有助于在語(yǔ)音信號(hào)太短的情況下,依靠聲學(xué)模型產(chǎn)生一個(gè)可靠的預(yù)測(cè)。比如說(shuō),如果用戶(hù)同時(shí)安裝了英語(yǔ)和德語(yǔ),像“naIn ”這樣的短而模糊的語(yǔ)句,在德語(yǔ)中可能是否定的“nein”,在英語(yǔ)中則是數(shù)字“nine”。

另外,為了評(píng)估該系統(tǒng),研究人員還開(kāi)發(fā)了一種自定義指標(biāo),稱(chēng)為“平均用戶(hù)準(zhǔn)確度”(雷鋒網(wǎng)按,AUA,Average User Accuracy),他們認(rèn)為這種指標(biāo)能更好地反映模型中的“人口水平”使用模式。

通過(guò)對(duì)多語(yǔ)言使用者的 128,000 個(gè)具有相應(yīng)交互上下文信息的聽(tīng)寫(xiě)話語(yǔ)的內(nèi)部語(yǔ)料庫(kù)進(jìn)行嚴(yán)格訓(xùn)練,它在所有語(yǔ)言組合中實(shí)現(xiàn)了平均 87% 的準(zhǔn)確性,同時(shí)將最差情況下的準(zhǔn)確性相對(duì)于基線提高了 60% 以上。

此外,在團(tuán)隊(duì)調(diào)整參數(shù)以平衡準(zhǔn)確性和延遲與在設(shè)備上運(yùn)行模型的計(jì)算負(fù)載之后,平均延遲從 2 秒減少到 1.2 秒,而對(duì) AUA 的影響不超過(guò) 0.05%。

雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))注:本文編譯自 venturebeat

 
(文/小編)
打賞
免責(zé)聲明
本文為小編推薦作品?作者: 小編。歡迎轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)注明原文出處:http://biorelated.com/news/show-69018.html 。本文僅代表作者個(gè)人觀點(diǎn),本站未對(duì)其內(nèi)容進(jìn)行核實(shí),請(qǐng)讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,作者需自行承擔(dān)相應(yīng)責(zé)任。涉及到版權(quán)或其他問(wèn)題,請(qǐng)及時(shí)聯(lián)系我們郵件:weilaitui@qq.com。
 

Copyright ? 2016 - 2023 - 企資網(wǎng) 48903.COM All Rights Reserved 粵公網(wǎng)安備 44030702000589號(hào)

粵ICP備16078936號(hào)

微信

關(guān)注
微信

微信二維碼

WAP二維碼

客服

聯(lián)系
客服

聯(lián)系客服:

在線QQ: 303377504

客服電話: 020-82301567

E_mail郵箱: weilaitui@qq.com

微信公眾號(hào): weishitui

客服001 客服002 客服003

工作時(shí)間:

周一至周五: 09:00 - 18:00