肉不停h共妻h山中猎户h,精品无码一区二区三区爱欲,激情综合色综合啪啪五月丁香搜索,欲色av无码一区二区人妻

移動版

當(dāng)前位置:智慧城市網(wǎng)資訊中心企業(yè)關(guān)注

新發(fā)產(chǎn)品更多
語音識別下一步 勇攀“人文境界”高峰
2017年11月22日 09:20:20來源:it168網(wǎng)站點(diǎn)擊量:37307
導(dǎo)讀根據(jù)eMarketer的研究,今年美國將有超過6000萬人使用語音激活的虛擬助手,比如Siri或Alexa,至少每月一次。也許并不奇怪,這些類型的小玩意在千禧一代中受歡迎--那些出生在1981年到2000年之間的人--在這個(gè)群體中,預(yù)計(jì)約有2990萬每月至少使用一次。
  【中國安防展覽網(wǎng) 企業(yè)關(guān)注】根據(jù)eMarketer的研究,今年美國將有超過6000萬人使用語音激活的虛擬助手,比如Siri或Alexa,至少每月一次。也許并不奇怪,這些類型的小玩意在千禧一代中受歡迎--那些出生在1981年到2000年之間的人--在這個(gè)群體中,預(yù)計(jì)約有2990萬每月至少使用一次。
 
  自從深度學(xué)習(xí)大熱,廣泛應(yīng)用于語音識別以來,字幕中的單詞錯(cuò)誤率急劇下降。盡管如此,語音識別并沒有達(dá)到人文水平,它仍會出現(xiàn)一些故障。承認(rèn)這些然后采取措施來解決這些問題對于語音識別的進(jìn)步至關(guān)重要。這是的從可以識別一些人的ASR到識別任何時(shí)間任何人的ASR的方式。
 
  在近期的Switchboard語音識別基準(zhǔn)測試中,單詞的錯(cuò)誤率得到改進(jìn)。Switchboard集其實(shí)是在2000年收集的,它是由兩個(gè)隨機(jī)的以英語為母語的人之間的40個(gè)電話對話組成。
 
  可以說目前我們已經(jīng)在會話式語音識別上達(dá)到“人類”水平,但僅僅只是在Switchboard方面。這個(gè)結(jié)果就像是在一個(gè)陽光燦爛的日子里的某城市中,只有一個(gè)人駕駛著自動駕駛汽車進(jìn)行測試。近在這方面取得的進(jìn)步令人驚訝,但是,關(guān)于達(dá)到“人類”水平的說法還是太過寬泛,以下是一些仍需要改進(jìn)的幾個(gè)方面。
 
  口音和噪音
 
  語音識別中明顯的缺陷之一是處理口音和背景噪聲。直接的原因是,大多數(shù)訓(xùn)練數(shù)據(jù)是由具有高信噪比的美國口音的英語組成。
 
  但是,更多的訓(xùn)練數(shù)據(jù)可能并不能自行解決這個(gè)問題。現(xiàn)實(shí)生活中,也有許多方言和口音。因此,用標(biāo)注數(shù)據(jù)去應(yīng)對所有情況是不可行的。構(gòu)建一個(gè)高質(zhì)量的語音識別器,轉(zhuǎn)錄了5000多小時(shí)的音頻難道只是為了以英語為母語的人?
 
  將轉(zhuǎn)錄器與百度的深度語音識別系統(tǒng)Deep Speech 2 比較后發(fā)現(xiàn)在轉(zhuǎn)錄非美國口音時(shí)情況更糟糕??赡苁怯捎诿绹嗽谵D(zhuǎn)錄時(shí)的偏見。
 
  在背景有噪音的情況下,移動汽車的信噪比低至5DB并不罕見。這種環(huán)境下,人們也能夠很好的聽清彼此。另一方面,語音識別器在噪聲方面的降解速度更快。在上圖中,可以清楚看到人力和模型誤差率之間的差距,從低信噪比急劇上升到高信噪比。
 
  語義錯(cuò)誤
 
  在語音識別系統(tǒng)中,單詞錯(cuò)誤率通常不是實(shí)際的目標(biāo),語義錯(cuò)誤率才是我們關(guān)注的重點(diǎn)。因?yàn)?,語義正確與否關(guān)系到對他人話語的理解程度。
 
  一個(gè)語義錯(cuò)誤的例子是,如果有人說“讓我們在星期二見面”,但是語音識別器識別為“我們今天就見面”。這是出現(xiàn)了單詞錯(cuò)誤卻沒有語義錯(cuò)誤,當(dāng)然,情況也可能反過來。
 
  使用錯(cuò)誤率作為代理服務(wù)時(shí),必須謹(jǐn)慎。先舉一個(gè)壞的例子來說明原因。一個(gè)5%的回答可能相當(dāng)于每20個(gè)單詞就漏掉一個(gè)。那么,如果一句話只有20 個(gè)單詞的話,那么這句話的錯(cuò)誤率可能就是100%。
 
  當(dāng)將模型與人類進(jìn)行比較時(shí),檢查錯(cuò)誤的本質(zhì)是非常重要的,而不僅僅是將答案視為一個(gè)確定的數(shù)字。就經(jīng)驗(yàn)來看,人類的轉(zhuǎn)錄要比語音識別器產(chǎn)生更少的語義錯(cuò)誤。
 
  微軟的研究人員近比較了人類轉(zhuǎn)錄及其人類語言識別器所犯的錯(cuò)誤,發(fā)現(xiàn)的一個(gè)差異在于,該模型混淆了“uh”和“uh huh”。這兩個(gè)詞有完全不同的語義。模型和人力都犯了很多相同類型的錯(cuò)誤。
 
  單通道,多個(gè)揚(yáng)聲器
 
  由于每個(gè)揚(yáng)聲器都使用單獨(dú)的麥克風(fēng)進(jìn)行錄音,所以 Switchboard會話任務(wù)也更容易。同一音頻流中,多個(gè)揚(yáng)聲器沒有重疊。另一方面,人類可以很好的理解多個(gè)揚(yáng)聲器有時(shí)在同一時(shí)間進(jìn)行的通話的內(nèi)容。
 
  一個(gè)好的會話語音識別器必須能夠根據(jù)誰在說話(diarisation)來分割音頻。它也應(yīng)該能夠使用重疊的揚(yáng)聲器(音源分離)來理解音頻。這是可行的,不需要麥克風(fēng)每一個(gè)揚(yáng)聲器,以便會話語音可以在任意位置都能工作。
 
  域的變化
 
  口音和背景噪聲是語音識別器的兩個(gè)重要的因素,這里還有一些:混響聲音環(huán)境變化;來自硬件的artefacts;用于音頻和壓縮的artefacts;采樣率;說話人的年齡。
 
  大多數(shù)人甚至不會注意到mp3和普通wav文件之間的區(qū)別。在聲明人力性能之前,語音識別器也需要對這些變化的來源進(jìn)行強(qiáng)大的支持。
 
  上下文
 
  你會發(fā)現(xiàn),像“開關(guān)板”這樣的單詞的錯(cuò)誤率實(shí)際上會很高,如果你和一個(gè)朋友交談,他們誤解了每20個(gè)字中的1個(gè),那么你就會很難溝通。
 
  其中的一個(gè)原因是評估是在上下文中完成的。在現(xiàn)實(shí)生活中,我們會使用許多其他線索、結(jié)合語境來幫助我們了解某人在說什么。但語音識別器不能識別這些:
 
  對話的歷史和討論的話題;關(guān)于我們正在說話的人的視覺暗示包括表情和唇部運(yùn)動;說話的人的背景。
 
  目前,Android的語音識別器已經(jīng)掌握你的聯(lián)系人列表,因此它可以識別你的朋友的姓名。地圖產(chǎn)品中的語音搜索可以使用地理定位來縮小你可能想要瀏覽的感興趣的地點(diǎn)。當(dāng)使用這種類型的信號時(shí),ASR系統(tǒng)的精度肯定會提高。
 
  部署
 
  當(dāng)要部署一個(gè)新的算法的時(shí)候,可以考慮延遲和算法,因?yàn)樵黾佑?jì)算的算法往往會增加延遲,但為了簡單起見,接下來將分別討論。
 
  延遲:完成轉(zhuǎn)錄之后,低延遲是十分常見的,它會顯著影響用戶的體驗(yàn)。因此,幾十毫秒內(nèi)的延遲要求對于ASR系統(tǒng)來說并不少見。雖然這可能聽起來會有些,但這通常是一系列昂貴計(jì)算的步,所以,必須謹(jǐn)慎。
 
  將未來信息有效地納入語音識別的好方法到目前為止仍然是一個(gè)開放的問題,有待討論。
 
  計(jì)算:記錄話語所需的計(jì)算能力是一種經(jīng)濟(jì)約束。我們必須考慮到對語音識別器的每一個(gè)精度的改進(jìn)。如果改進(jìn)不符合經(jīng)濟(jì)閾值,則無法部署。
 
  一個(gè)從未被部署的持續(xù)改進(jìn)的經(jīng)典例子是集成。1%或2%的誤差降低可能會達(dá)到2-8倍的計(jì)算增長,現(xiàn)代的RNN語言模型通常也屬于這一類。
 
  實(shí)際上,并不建議在很大的計(jì)算成本上提高準(zhǔn)確性,已經(jīng)有“先慢但準(zhǔn)確,然后加速”的工作模式。但關(guān)鍵在于,直到改進(jìn)足夠快,它仍是不可用的。
 
  未來五年
 
  語音識別中還存在許多開放性和挑戰(zhàn)性的問題。這些包括:擴(kuò)大新領(lǐng)域,口音和遠(yuǎn)場,低信噪比;將更多的上下文融入識別過程;Diarisation和源分離;超低延遲和推理。
 
  期待在今后的五年在這些方面都能取得進(jìn)展
 
  原標(biāo)題 語音識別的下一攀登高峰是“人文境界”?
關(guān)鍵詞 語音識別生物識別指紋識別
相關(guān)閱讀更多
版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明“來源:智慧城市網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智慧城市網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:智慧城市網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明自其它來源(非智慧城市網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或和對其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

正在閱讀:語音識別下一步 勇攀“人文境界”高峰
我要投稿
  • 投稿請發(fā)送郵件至:(郵件標(biāo)題請備注“投稿”)afzhan@foxmail.com
  • 聯(lián)系電話0571-87756384
智慧城市行業(yè)“互聯(lián)網(wǎng)+”服務(wù)平臺
智慧城市網(wǎng)APP

功能豐富 實(shí)時(shí)交流

智慧城市網(wǎng)小程序

訂閱獲取更多服務(wù)

微信公眾號

關(guān)注我們

抖音

智慧城市網(wǎng)

抖音號:afzhan

打開抖音 搜索頁掃一掃
i

視頻號

AF智慧城市網(wǎng)

視頻號ID:sphF7DOyrojJnp8

打開微信掃碼關(guān)注視頻號

小紅書

智慧城市

小紅書ID:2537047074

打開小紅書 掃一掃關(guān)注
反饋
久久精品国产亚洲av果冻传媒| 永不迷路-黑料正能量在线| 又大又紧又爽水又多18p| 137最大但人文艺术| 欧美性BBBBBXXXXXXX| 99精品久久精品一区二区| 性bbwbbwbbwbbw| 亚洲精品无码专区在线| 国产a级三级三级三级| 奶头被教练摸得受不了| 处破初破苞一区二区三区| 日日噜噜夜夜狠狠久久人人| 我们的法则第二季| 亚洲精品无码久久久久久| 色婷婷av一区二区三区| 少妇spa推油被扣高潮| 女人与公拘交酡过程| 无码一区二区三区在线| 久久久久久精品免费看a片| 欧美丰满大乳高跟鞋| 亚洲日产乱码一二三区别| 狠天天狠天天香蕉网| 哦┅┅快┅┅用力啊┅┅| 久久久久久综合网天天| 国产av精品一区二区三区久久| 无码天堂亚洲国产av久久| 四虎永久在线精品无码| 香蕉欧美成人精品av在线| 双腿被绑成m型调教play| 熟女人妇 成熟妇女系列视频| 欧美成av人一区优播免| 久久99精品国产99久久| 99re热这里只有精品视频| 国产毛片久久久久久国产毛片| 丰满人妻熟妇乱又伦精品软件| bdsm最惨刺激fisting| 一边捏奶头一边啪高潮会怎么样| 寡妇bwwbwwbww| 日本一区二三区好的精华液| 一路向西在线观看完整版| 欧亚专线S码和W码的区别|