[新聞] 百度開發語音識識系統DeepSpeech

作者: squall021 (史胖)   2014-12-21 11:27:32
1.媒體來源:
數位時代
2.完整新聞標題:
百度開發語音識識系統DeepSpeech,嘈雜環境下識別率超Google、蘋果
3.完整新聞內文:
不久前,百度的首席科學家吳恩達(Andrew Ng)在接受採訪時曾談到了百度最近人工智
慧的進展情況,強調了近期百度重點是攻關語音識別。現在他們已經在這方面取得了突破

這項成果的名字叫做Deep Speech,是一款採用深度學習技術的語音識別系統系統。其獨
特之處在於,它可以在飯店等嘈雜環境下實現將近81% 的辨識準確率。
81%的準確率聽起來似乎不算高。但是同樣環境下,其他的商業版語音識別API,包括Bing
、Google以及Wit.AI等的最高識別率也只有65%。相比之下這就算十分突出的表現了。而
且按照吳恩達的說法,這樣的結果依然低估了Deep Speech與其他語音識別系統的準確率
差異,因為Deep Speech進行比較時還把其他語音識別系統那些返回空白字符串的結果排
除在外了。而且Deep Speech跟頂級的學術型語音識別模型(基於流行的數據集Hub5'00建
模)相比也高出9個百分點。
百度首席科學家吳恩達稱儘管這還只是一項研究,但是公司正在考慮將它集成到供智慧手
機和Baidu Eye之類的可穿戴設備使用的語音識別軟體當中。而且百度還在開發與Amazon
Echo類似、集成有語音助理的家電產品,名字叫做CoolBox。除此以外,百度在開發的智
慧自行車當然也能利用Deep Speech技術。
Deep Speech 的基礎是某種遞歸神經網絡(RNN),這種遞歸神經網絡經常被用於語音識
別和文本分析。
但是Deep Speech 的成功主要得益於一個長達10 萬小時的語音數據訓練集。這是百度人
工智慧實驗室團隊用新穎的辦法在嘈雜環境下建立的。其過程大致是這樣的。首先百度收
集了7000 小時的語音會話數據,然後再將這些語音文件與包含有背景噪音的文件合成到
一起,最後形成約10 萬小時的訓練集。這些背景噪音包括了飯店、電視、自助餐廳以及
汽車內、火車內等場景。相比之下,Hub5'00 的數據集總共只有2300 小時。
當然,這麼龐大的數據,大多數系統都不知道如何去處理。吳恩達表示,Deep Speech的
成功很大程度上要取決於百度規模龐大的基於GPU的深度學習基礎設施。GPU(圖形處理器
)往往是偏數學型計算的首選。許多深度學習系統都採用GPU避免通信瓶頸(不過微軟的
深度學習系統Adam卻走了不同的路線),但是像百度這樣大規模的設施卻是少見的。
百度的另一大改進,是對這個龐大的數據集採用了點到點的深度學習模型,而不是標準的
、計算代價高昂的聲學模型。傳統上一般都會把語音識別分別為多個步驟,其中一步叫做
語音調適,但是百度卻不做這一步,而是給Deep Speech 的算法提供大量的數據,然後讓
它去學習所有需要學習的東西。這種做法除了收穫了準確率以外,還顯著減少了代碼庫的
規模。
這項研究是吳恩達領導的百度人工智慧實驗室多位研究人員的努力成果,論文發表在康乃
爾大學圖書館的arXiv.org網站上,感興趣的可到此處下載。
4.完整新聞連結 (或短網址):
http://www.bnext.com.tw/article/view/id/34774
5.備註:
作者: if2 (祈福兔)   2014-12-21 11:28:00
要用北京腔才能識別嗎
作者: Judicial5566 (司法5566)   2014-12-21 11:28:00
鄉民開發Deepthroat
作者: MacOSX10   2014-12-21 11:31:00
訊飛號稱95%
作者: lomgray (lomgray)   2014-12-21 11:33:00
嘈雜噪音環境下的識別率跟安靜環境下識別率不太一樣
作者: r107620966 (Survivor)   2014-12-21 11:43:00
天安門大屠殺應該講幾百次都辨識不出來
作者: saladim (殺拉頂)   2014-12-21 12:07:00
還是輸deepmind
作者: egain (天國直達車)   2014-12-21 12:20:00
他能辨識六四嗎
作者: disap ( )   2014-12-21 12:27:00
很適合放在公共場所做大量監聽
作者: LonyIce (小龍)   2014-12-21 12:58:00
Hao123

Links booklink

Contact Us: admin [ a t ] ucptt.com