[評價] 103-2 李琳山 數位語音處理概論

作者: frankshyu (frankshyu)   2015-07-12 20:22:31
:
※ 本文是否可提供臺大同學轉作其他非營利用途?(須保留原作者 ID)
(是/否/其他條件):

哪一學年度修課:
103-2
ψ 授課教師 (若為多人合授請寫開課教師,以方便收錄)
李琳山
δ 課程大概內容
Lecture1. Introduction to Digital Speech Processing
給你整個課程的big picture
介紹語音處理的大架構、過去發展、未來可能
Lecture2. Fundamentals of Speech Recognition
先說明信號的前端處理,像是Pre-emphasis、End-point detection等
接著說明怎麼把signal變成feature,這門課主要討論MFCC
變成Feature之後就可以用
Hidden Markov Model (HMM)
還有Gaussian Mixture Model (GMM)
來計算一個信號屬於某個聲音的機率,這是phoneme level
phoneme level完成之後就可以往上來到language model level
整個語音辨識的大架構就在這裡先架構起來了
Lecutre3. Map of Subject Area
這只是李大師漫談語音大未來XD 介紹可能發展
Lecture4. More about HMM
這章開始(大概第二周)就真的很難
基本上老師會把HMM講到滿細的,讓同學通透了解HMM的運用
基本上一個phoneme可以用一個獨特的HMM來描述
聲音的feature會一個state一個state跳,藉此算出機率
我覺得之前在機率學到的Markov chain都忘光了QQ
所以我這邊滿辛苦的
Lecture5. Acoustic Modeling
這裡主要說明如何用entropy, decision tree建構一個完整的
Acoustic model。也就是說一個字如何被更細緻地拆解成連續
的聲音信號
Lecture6. Language Modeling
講Language model, 描述一個句子出現的機率為何。同時會導
入perplexity的觀念,說明如何用perplexity找jargon或是關
鍵字,之後做文字所引的時候還會再用到。和一些smoothing
的方法,像是Good-Turing, Back-off等等。
Lecture7. Speech Signals and Front-end Processing
這邊就和必修課的信號與系統比較有關係了,資工系的同學可
能會比較辛苦。主要是描述如何用convolutional method把聲
音描述成不同的組成。一些第二章講到的MFCC, pre-emphasis
也都會在這裡說明得更清楚。然後怎麼消去雜音等等
Lecture8. Search Algorithm for Speech Recognition
一開始說dynamic time warping(DTW),滿重要的,算是一個高
準確度但是很曠日廢時的演算法。之後說最有名的Viterbi alg
末端大致帶過Heuristic Search和A* Search,比較像是補充
========== 期中考到這裡 ==========
Lecture9. Speech Recognition Updates
前面幾章(4~8)在講比較細的technical details,這裡又開始看
大方向。這章就是因為對於過去的這些發展比較了解了,老師可
以開始帶大家看今天的發展。包含一些提升準確性的方法。和更
精準的training method。然後講了一點點DNN、RBM,和這兩者怎
麼和speech recognition結合
Lecture10. Speech-based Information Retrieval
在Recognition成功之後,總要做點用途。這邊就介紹最值觀的
用途,用聲音搜尋。老師會介紹不少搜尋的演算法,像是word-
lattices、vector space model等。還有神奇的weighted-finite
-state transducer。還有要做classification的時候用到的
support vector machine等把data分群的方法,都很實用
Lecture11. Spoken Document Understanding and Organization for
User-content Interaction
這個章節比較平淡無奇,主要就在說怎麼把資料建檔和下標題
、摘要。比較有趣的大概是maximum margin relevance,MMR,
描述怎麼建構摘要。
Lecture12. Computer-Assisted Language Learning
主要在描述怎麼利用機器輔助人類學習語言,但是筆者私下認為
比較無趣一點Q~Q
Lecutre13. Speaker Variabilies: Adaptation and Recognition
這章滿精彩的,主要在說明怎麼從有限的speaker-dependent data
結合database比較大的speaker-independent data去製造每個人
專屬的語音辨識模型。中間描述了一些調整model的方法,如
MLLR、PCA、Eigenvoice等,都是信號處理上很有用的東西。
這章的數學又比較難了,但是相當值回票價
Lecture14. Latent Topic Analysis
這章數學也比較多,但同樣很酷炫。主要講用Singular Value-
Decomposition找 字彙 - 文件 中的關係。SVD以前線性代數
學的時候根本覺得沒用,沒想到在這邊被殺到沒穿褲子
Lecture15. Robustness for Acoustic Environment
又回到信號處理的部分,在講述怎麼處理掉背景雜訊。這邊
有修過信號與系統會滿吃香的。因為convolution等觀念都
已經先有了
Lecture16. EM algorithm
神奇的 Expectation - Maximization Algorithm (EM)
前面章節只要用出來,每題都秒殺。但根本不知道背後原理XD
這總算見識到了...只能說好險老師沒有多考這邊的東西...
Lecture17. Spoken Dialogues
大概講述了 人類 - 機器 的對話形成方式,用FSM來模擬
Lecture18. Conclusion
進階版信號與人生,聆聽老師的學術生涯經驗,受用滿多的
可惜時間比較短,只有一節課
Ω 私心推薦指數(以五分計) ★★★★★
滿分
甜、內容豐富、考試難易度適中、學得到東西、容易補課、可以一睹大師風采
想不到任何缺點
η 上課用書(影印講義或是指定教科書)
有很多本指定參考書,都在總圖參考資料區可以找到,但不強制要用
μ 上課方式(投影片、團體討論、老師教學風格)
用投影片 + 一點點黑板
老師強調見樹又見林,整體教學結構很明確
先給大家看到大方向(林),再把細部的數學(樹)建構起來
上課很清楚
σ 評分方式(給分甜嗎?是紮實分?)
無敵甜,世界甜,我修完這門課的暑假看了四次牙醫
全班40% A+,80% A-以上,請大家低調
但是作業是滿需要花時間的啦,期中考期末考也要好好準備
ρ 考題型式、作業方式
考試:
因為數學太難,主要考試都是論述。期中考有手爆一題HMM...有點殘忍
但除此之外只要有準備都可以考不錯。可以帶大抄,筆者自己大概期中
考期末考都做了十來頁、二十來面的大抄,滿有用的。也可以考試前把
老師上課的錄音都聽過一遍
作業:
三次,#1, #3 比較難,大概是DSnP半次到一次作業這樣? 我C++很爛,
大概都寫了一整個周末。但有些資工系比較強的同學大概是一個晚上。
第二次只是操作軟體,了解一些data特性,一個下午就可以解決
Final Project:
占分很重,大概都30%以上。可以選擇實作或是paper survey
實做的話可以demo給老師看,據說可以獲得和老師吃飯的機會?!
ω 其它(是否注重出席率?如果為外系選修,需先有什麼基礎較好嗎?老師個性?
加簽習慣?嚴禁遲到等…)
沒有,老師比較不喜歡上課吵鬧。有信號與系統當基礎為佳
Ψ 總結
好課,筆者以前修電機系必修都覺得"這到底哪裡用得到?"
修完之後才知道原來每門工程數學都很重要Orz
而且絕大部分的必修、選修都是學比較基礎、古老的東西
但是這門課橫貫古今?!提到過去的發展、數值模型
也囊括未來的可能性,真的是見樹又見林
很懊悔大三下才修,真的是值得一修得好課!
作者: kenCHLEE (kenCHLEE)   2015-07-13 22:42:00
推好課!!
作者: LYHsyuhong (aoi)   2015-07-15 22:48:00
好詳細推個 原PO是老師指定要請吃飯的強者>///<另外作業#1,3個人認為比起DSnP後期作業應該不到一半
作者: frankshyu (frankshyu)   2015-07-19 17:49:00
原PO DSnP只修到作業六就停休了QQQ
作者: yunchuchen (竹子)   2015-07-19 19:21:00
你的評價文都好詳細喔好猛XD

Links booklink

Contact Us: admin [ a t ] ucptt.com