[問卦] 有沒有語音資料都被大公司收走的八卦

作者: sdf611097 (猶若洗苦)   2018-05-12 15:58:08
==本篇留言將蒐錄到Common voice中,如果不想被收錄,推文開頭請加#==
現在的語音資料都被大公司所掌握,如某A、某F、某G
現在要做任何語音相關的研究或是新創公司要做研發
都只有很有限的語音資料
Common voice https://voice.mozilla.org/en
這個project的目標是提供一個沒有版權規範的
語音及文字對應的資料庫(現階段只有英文)
要貢獻聲音的方式就是連上網頁
照敘述點做對應的事情
像是他會給你一個句子,你點錄音後,就講對應的話
也有地方可以驗證收音後的聲音結果
現在開始搜集在網頁上顯示(英文以外),以供他人錄音用的句子
英文以外的錄音暫時還沒辦法
如果有興趣的人可以參考以下連結的說明
https://voice-sprint.mozilla.community/
關於搜集的句子的一些規則在以下的連結
https://voice-sprint.mozilla.community/contributing/
所要搜集的句子的規則為下列幾點
來源:核心概念為,是不受版權規範,CC0或是Public Domain Mark
1. 你自己寫的句子
2. 現有的句子,像是有一些文章有說這篇文章是公開授權、CC0、PDK
句子的規則:(盡量遵守)
1. 這個句子在正常的說話速度下,大約5~10秒
2. 可以有“少量”的一兩個字的句子,如早安
3. 如果可以,盡量用多一點不同的詞彙
4. 可以有任何看得懂意義的標點符號,像是?及!,因為這牽扯到閱讀者的語氣
5. 特別的語言標記是好的(ex.â, ü, ß),不過中文沒這種符號,可以忽略
6. 盡量使用合適的名詞,比如說不要用北車,請用台北車站(理性勿戰)
7. 數字用阿拉伯數字或中文敘述都OK
個人補充
這個東西應該是要拿來給語音助理等服務的訓練用的
盡量提供日常生活的對話,盡量不要用文言文
關於上傳你的句子(一個換行表示一句)
https://voice-sprint.mozilla.community/upload/
Nickname就是你的暱稱(Gold Plus Five, Taipei)
Email (required) 就是你的email
Enter your sentences here (max 5,000 characters).
這邊就是你不要填超過5000個字
如果是100句以下可以直接貼在網頁的輸入框內
如果你有很多句,可以提供你的公開連結(每個人都可以看得到的)
網頁上提供了一種方法
https://pastebin.com/
你把你的句子放到New Paste上
然後點下面的Create New Paste
你就可以產生一個有你的句子的連結
例如https://pastebin.com/L8qTM4rX
Language (required) 填語言
如果是繁體中文的話,填zh-TW(看得懂的其實都可)
Link to the source of the sentences
如果你的句子不是自己的
請輸入這個句子是怎麼來的
I certify that I either created these sentences,
or got them from a public domain source (required)
這個勾勾是
“我證實我提供的句子是自己創照的或是從public domain source來的”
submit後就送出了
以下開放偷告白,闡述台灣價值,分享個人言論,抱怨499排不到
==本篇留言將蒐錄到Common voice中,如果不想被收錄,推文開頭請加#==

Links booklink

Contact Us: admin [ a t ] ucptt.com