這個技術領域非常複雜,要把人的抽象語言轉換成電腦看的0和1,是有一定難度的,單純使用軟體是不太能夠辨識出文字語言,所以要透過 Google機器學習演算法等方式達到目標,很難不透過網路等這些平臺進行辨識。 如果真的有這類單機軟體(這裡的單機是指不需要透過網路),直接拿影片檔案進行轉換,那麼這個軟體也會因為機器學習演算法等的關係非常肥大(因為一定會需要機器學習演算法此技術才可),就不會是小軟體了。win10 的部分沒很明確指出是否需要網路,這部分可自行測試,若需要的話可能是透過bing辨識的。若是真的要單機且不透過網路,有個方式是土法煉鋼的概念,那就是把聲音真的放出來再利用語音輸入法(win10內建或其他需要網路的)、ViaVoice等進行辨識,辨識效果也是很有限,可能比youtube的還差。若是語音輸入法是否可為同一電腦設備下進行放音及語音辨識就要自行測試了,理論上應該是可以,但是影片播放部分可能需要讓它在背景下執行。類似這篇提到的操作方式
https://www.youtube.com/watch?v=ePJoZ76Z61c針對最重要的語音辨識這項目做說明,看不太瞭解那就請直接忽視了,謝謝。