日文N87路過,看V許久都是看人烤熟肉
很多只烤大箱,中小箱或新人初配信就很少烤肉人,挺可惜
然後看一些遊戲生放送也是聽都聽不懂,哈哈哈
自己完全無python開發經驗,靠GPT4搓了這樣一個小工具
目的不是要100%看懂,而是至少知道人家大概在說啥就過得去
對直播流不算熟,所以每10秒一次的切片可能會漏切
主要是用了最近很紅的Google Gemini Pro API,免費又比GPT快
翻譯模型的部分用faster-whisper,顯卡大概4G可行
Github 項目 (歡迎自己Fork改,順手給點星星吧)
https://github.com/Arcelibs/AutoVT
基礎版本
https://github.com/Arcelibs/AutoVT/releases/tag/stable-v1.0.1
使用族群取向
日本Vtuber
建議是用於雜談,唱歌跟玩遊戲不太推薦用,聲音要清楚一點的
如果是哈洽馬 三毛貓之類的不太適合,會辨識不太出來
測試範例 :
緋月 ゆい / Hizuki Yui 剛剛5點的雜談
https://i.imgur.com/3plmOCd.png
台灣Vtuber
不太建議用在台V,用中文翻譯中文.....?
英文或者外文Vtubuer
考慮到語言模型中翻譯英文的準確度較好,可以接受
測試範例 :
Hana Macchia Ch (彩虹社印度一期) 雜談
https://i.imgur.com/ODwp6GQ.png
備註 :
常常出現 KeyError: 'candidates' not found in response. 無法翻譯XX
目前可知的原因是因為傳送的詞語中帶有性暗示/暴力等禁止詞彙
被Google Gemini Pro API擋下,目前嘗試在加入DeepL翻譯當備案