河南夢之網網絡科技有限公司
夢之網科技出品
掃描關注夢之網科技微信公眾賬號

掃小程序碼聯系客服

脫離現實場景去空談“識別準確率”都是耍流氓

夢之網科技?2016-12-13?行業動態?

本站部分內容系互聯網轉載,本站不擁有所有權,不承擔相關法律責任。企業宣傳商業資訊,僅供用戶參考,如用戶將之作為消費行為參考,敬告用戶需審慎決定。站長微信(廣告合作/文章刪除):18239951881

 “對真正做技術的人來說,一項技術最有意思的不是它什么時候能work,而是它什么時候不work。最近我們經常從媒體上看到‘語音識別準確率97%、98%、甚至99%’這樣誤導性的標題黨,但要知道這樣夸張的準確率只可能在非常受限的場景下獲得。不信就請走進一個正進行著熱烈討論的會議室,掏出手機放桌上,打開語音輸入法做個會議記錄吧。這樣日常真實場景下的語音識別準確率,別說97%,斷斷續續勉強看懂就不錯了。在眾多真正有意義的場景下,語音識別的準確率遠沒有標題上宣傳的那么高,脫離現實場景去談準確率統統都是耍流氓。我認為語音行業的“圈內人”應該更嚴肅的去思考,我們這個行業的工作在學術研究上到底在哪些方面取得了實質性的進展,在工業應用上到底在哪些方面實實在在的幫助到大眾,在商業模式上到底在哪些方面有所創新。“如果問到業界目前熱衷于討論的“識別準確率哪家強?”,來自阿里的智能語音技術總監鄢志杰(花名:智捷)可能會給你一個不一樣的答案。
 
隨著語音和人工智能(AI)業務的發展勢頭越來越迅猛,語音交互無處不在,甚至被視為是人工智能時代的“標配”。就在不久之前,在全球上億觀眾觀看的2016雙11晚會上,除了各路明星閃耀捧場之外,還有一位特別來賓:阿里云人工智能ET。由阿里云人工智能ET參與的一場魔術為晚會增加了科技色彩,也成為這一年雙11的熱門話題。聽懂問題、現場觀察和思考、模仿人類的聲音回答問題……一系列的行為使得阿里云人工智能ET震驚了全場。探究其背后,這個魔術涉及到數學、語音、圖像等技術,數學支撐了撲克牌編碼和“猜牌”的原理,語音支撐了主持人與ET的交流、圖像支撐了對觀眾狀態的跟蹤和識別。
a07ca8f9def19470ccd6a0e4bf1b6e6dea2714aa
在語音技術方面,則主要涉及了語音識別(分辨出主持人華少的語音并對其進行識別)、語音合成(對華少說話、向現場觀眾報出猜牌結果)、對話和語言理解(完成整個對話流程)等技術,上述這些技術,都來自于鄢志杰(花名:智捷)所在的阿里云數據事業部智能語音團隊研發的智能語音交互(Intelligent Speech Interaction)系統。
 
本期云棲社區訪談,我們特邀到智捷,一起聊聊語音交互,聽聽他是如何看待阿里云ET背后的智能語音技術,以及對語音識別領域的產業觀察的。
 
受訪嘉賓:
鄢志杰,阿里云數據事業部智能語音技術總監,在加入阿里巴巴前,就職于微軟亞洲研究院,任語音組主管研究員。畢業于中國科學技術大學,獲博士學位。研究領域主要包括語音識別、語音合成、說話人識別驗證、OCR/ 手寫識別、機器學習算法等。在語音及文本識別領域頂級學術期刊及會議發表多篇論文,長期擔任語音領域頂級學術會議及期刊的專家評審,并擁有多項美國及PCT專利,目前是 IEEE senior member。其研究成果被轉化并應用于微軟公司及阿里巴巴集團的多項產品中。
 
下面是云棲社區對鄢志杰的專訪實錄:
 
云棲社區:能自我介紹下并談談所從事的工作嗎?
智捷:基本上我是做語音相關核心技術的研究和產品化工作的,包括語音識別、語音合成、聲紋識別驗證等等。我們的任務是讓機器能聽懂人類的語音,同時還能開口說出人類的語言。除此之外,還有一些技術在人機智能語音交互中不可或缺,例如麥克風陣列技術、語音前端信號處理技術、遠場語音識別、語音喚醒等等,這些也都是我們的關注點。總之,所有能夠去實現極致的語音交互體驗的核心技術模塊,我們都會去做。
 
云棲社區:業內的語音技術方向的產品和研發都比較多,你對產業的觀察是怎樣的?
智捷:語音技術的研究及其應用在歷史上起起伏伏已經有很多次了,最近這幾年研究上取得了一些突破性進展、應用變得越來越多、宣傳上更是隨處可見,但放到更長的時間維度上來看,今天不過是從“伏”到又一次“起”而已。不知道大家是否知道,遠在1969年,Bell labs的John Pierce曾寫過一封公開信《Whither speech recognition?》,彼時也是語音技術如日中天、funding無數、一些應用開始有了苗頭的時代。在這封信中,Pierce嚴厲的批評了當時的語音技術研究和產業狀況,并最終直接導致了Bell labs以及美國政府在70年代初的好幾年時間減少甚至停止了對這一領域研究工作的資金支持。現在看來,這封信中的一些觀點并非完全正確,但其中的一些段落在近50年后的今天讀起來,卻還是給人“yesterday once more”的感覺:“Speech recognition has glamor. Funds have been available. Results have been less glamorous. General-purpose speech recognition seems far away. Special-purpose speech recognition is severely limited. It would seem appropriate for people to ask themselves why they are working in the field and what they can expect to accomplish.”好消息是,經過幾十年的起起伏伏,從總體上講語音技術還是震蕩上升的,并取得了令人矚目的進展。一方面,今天在某些限定領域、友好的說話人、較高的信噪比、以及有利的信號采集信道下,語音識別已經可以達到很高的準確率;在一些固定風格下,語音合成也可以達到很高的自然度;在一些超大規模的說話人識別任務上,機器憑借其天然的存儲優勢甚至可以達到超越人類的水平。另一方面,從總體來說,我認為今天的語音技術離大眾的期待仍存在明顯的差距。對真正做技術的人來說,一項技術最有意思的不是它什么時候能work,而是它什么時候不work。應該跳出“語音識別準確率97%、98%、甚至99%”這樣的誤導性標題黨,思考我們這個行業的工作在學術研究上到底在哪些方面取得了實質性的進展,在工業應用上到底在哪些方面實實在在的幫助到大眾,在商業模式上到底在哪些方面有所創新。語音產業歷史上的起起伏伏已經證明過,“起”的時候吹過的牛皮越多,“伏”的時候就摔得越慘。
 
云棲社區:語音技術涉及多方面,語音識別、語音合成等,可否系統的介紹下阿里云ET的語音系統? 
智捷:簡單來說ET是一個強大的基于模型、數據和計算的學習系統(learning machine)。
首先是模型,就是對你要學習的問題的抽象。在ET的語音技術部分,我們在很多方面使用了大規模的深度學習模型。例如在語音識別上,我們在業界第一個上線了LC-BLSTM模型,這一模型對語音識別的準確率帶來了很大的提升,也越來越多的得到了業界的關注的驗證。我們還持續在演進這個模型,最新的研究成果是我們將使用這一模型用于語音識別的速度加速了3倍,并同時獲得了更高的精度。試想一下在阿里云的大規模數據中心里,3倍的速度提升意味著什么:這意味著省下了2/3的服務器機架、2/3的電力消耗,使得阿里云的客戶可以用很低的成本來享受到普惠的語音識別能力。同樣在語音合成方面,我們用深度學習模型來解決分詞、多音字消歧、停頓預測等等問題,讓我們的語音合成系統說出的話既要講得對(不要念錯字)、又要講得好(抑揚頓挫、清晰自然)。
其次是數據,阿里巴巴是一家數據公司。每天通過我們的幾大超級app(手機淘寶、支付寶等)、客服呼叫中心、移動操作系統YunOS、ToB和ToC(天貓魔盒等)的產品,我們有大量的真實數據會被收集到云端。這些數據在匿名化、去除敏感信息后可以被利用并不斷迭代進化我們的產品和服務,使得語音識別、語義理解的準確度通過機器學習不斷提升。
最后是計算,這也正是阿里云的強項。阿里云在云計算方面的優勢使得我們天然擁有一個很好的“云數據、大計算”基礎。在這個基礎之上,我們構建了專為語音領域機器學習任務優化的軟硬件結合的平臺,包括硬件、軟件、中間件,存儲、計算及其之間的互聯互通方案等。這一平臺可以使得我們可以以極高的效率完成各種模型的實驗、參數調優以及生產。對于一個數萬小時的語音訓練數據庫,我們僅需要數天時間即可完成end-to-end的訓練和測試。這樣的能力極大的釋放了我們創新和生產的速度,也意味著我們可以用更少的人力去支持更多的客戶,從而大大的降低使用阿里云語音服務的客戶所需要付出的成本。
 
云棲社區:在雙11現場舞臺這種場景下,ET的語音系統有哪些技術難點?這些難點是如何解決的?
智捷: 最大的難點是我們語音識別的目標主持人華少,并不是上述所謂“友好的說話人”。大家知道,華少的語速高達每分鐘400字,而我們的ET是用大量普通人的語音數據來訓練的,他們每分鐘也就200-300字,這就意味著我們的訓練數據中根本看不到這么“超人”的語速數據。當天現場還有一個花絮:大家知道,晚會直播節目常常會超時,ET魔術節目排得比較靠后,開始的時間比預定的已經延誤了幾十分鐘,而ET后面緊接著就是馬老師的魔術以及零點的雙十一啟動。因此,華少和子佼必須以盡可能快的速度完成ET魔術節目,以免影響零點的倒計時。我們后來在回放當天的錄音時發現,華少當時明顯加快了主持的節奏,因此,“中國好舌頭”的語速是對ET最大的考驗。
好在我們有一些技術上的準備使得ET承受住了壓力,并使得節目順利完成了。首先,很多眼尖的網友也發現了,華少會以“聰明的ET”作為提醒ET的喚醒詞,這就使得ET規避了很多不必要的干擾,能夠專心聽喚醒詞后面的語句;其次,我們的語言理解模塊具有較好的泛化性,能夠對語音識別的典型錯誤進行一定程度的容錯。應該說,當天華少的語音識別準確率比我們歷來的正常水平都要明顯低,這在一定程度上是意料之外的。還好語義理解模塊非常給力,沒有受什么影響并最終完成了魔術,這種容錯來自于平時打下的基礎,也算是情理之中。
 
云棲社區:ET可以實時將華少的現場口播翻譯成文字,一旦出現錯誤,ET還會結合上下文語境進行毫秒級修正,這是如何做到的?
智捷:這個功能其實專業的語音識別系統都具備。我們總是基于解碼所在的當前時刻向前回溯,并尋找一個最佳的解碼路徑作為文字輸出。當解碼不斷向前進行時,由于看到的數據更多,回溯的結果也可能會發生變化。這就是為什么大家看到結果會“修正”的原因。
 
云棲社區:ET背后的語音技術已經應用到產品中了嗎?
智捷: 當然。在阿里巴巴集團和螞蟻金服的好多產品中都有我們的影子。例如手機淘寶、支付寶、釘釘、天貓魔盒、YunOS手機等等。我們提供語音的能力,幫助用戶更快的找到商品或服務;在阿里云,我們的能力也被以公有云或專有云的形式輸出,幫助生態上的合作伙伴應用于智能客服、智慧法庭、直播、安全等方方面面;阿里云還與YunOS共同成立了I3 (Institute of interactive intelligence)實驗室,在互聯網汽車、機器人、智能音箱電視、智能家居等方面支持各類IoT產品的語音交互。
我們還在集團和螞蟻的智能客服系統中承擔著語音技術的支持角色。例如今天螞蟻的95188客服電話,客戶的問題首先會被“小蟻”機器人來回答;今天手機淘寶里的客服機器人“阿里小蜜”,你也可以用語音跟它對話,而其中的語音識別能力就是我們提供的;今天集團和螞蟻客服中心的服務電話都會被我們的語音識別技術記錄下來,作為質檢的基礎及后續數據挖掘和機器學習的原料。
 
云棲社區:當大規模的語音數據沉淀下來后,是否可以被挖掘利用?
智捷:已經在挖掘利用了。在智能客服中心,語音數據沉淀下來后被用于服務質量的質檢,提高客服人員的服務質量和問題解答的一致性;這些數據還被用于讓機器自動的去學習用戶問題和小二解答之間的關聯,從而使得越來越多的問題可以讓機器人自動回答。
 
云棲社區:在你看來,下一步ET的語音技術需要解決什么問題?重點發展方向是?
智捷:語音識別方面重點還是要解決目前“不work”的那些場景,例如應用領域不限定、說話人不友好(口音、說話方式等)、噪音、遠場等。
語音合成方面,主要是更佳的、富有變化的情感表現力、篇章級的自然度等,讓人長時間聽而不感到厭煩。
聲紋方面,還需要有較大的基礎技術突破來破解目前應用上“食之無味棄之可惜”的雞肋現狀。
交互技術方面,要研究在IoT大潮下如何使得人與機器的溝通在交互上更自然、更易用。
文章關鍵詞
人工智能
大數據
AI
語音識別
ET
急速赛车国语 宁夏体育彩票11选5开奖 ssni系列的抽搐痉挛作品封面 球探体育比分旧版有网球的 芝麻策略 有你的校园 十佳股票配资平台 500彩票网购彩大厅 手机麻将作弊器免费版 足彩半全场 宁夏体育彩票11选5开奖 3d开奖试机号开机 北单比分三串一中奖单 股票配资平台是合法的么 钻石帝国 巴西比分预测 a片的女人为什么叫床