[問卦] 他用 600萬字分析 告訴你中國嘻哈都唱什

作者: giorno78 (天晴)   2018-01-23 15:44:18
心得:
先說結論,中國的嘻哈都在唱以下內容,這有什麼好禁的?
「“世界”和“時間”佔據首位,
“老子”、“兄弟”、“baby”、“money”、“bitch”、“real” 等詞
倒是讓 rapper 的形象呼之欲出。rapper 的詞裡頻繁提到“音樂”、“歌詞”、
“旋律”、“歌曲”。」
https://goo.gl/DRR1gf
正文:【 我做了六百萬字的歌詞分析,告訴你中國Rapper都在唱些啥 】
https://weiwenku.net/d/101642774
文/ 貓弟Azz
當“你有freestyle嗎”火遍全網之後,一個個你從來沒聽過的 rapper 像加拿大土撥鼠
播報春天一樣冒出洞口——你突然感覺到,媽的,HipHop還真要成主流了?我努力努力改
天還靠這個吃飯嗎?
然後,你作為一個對HipHop,尤其是中國HipHop毫無瞭解的吃瓜群眾,你自然會好奇以下
三個問題:
HipHop到底在唱些什麼?
各個國家和地區的 Rapper 們想要說的聊的唱的都有哪些特色?
如果想當一個Rapper,我應該怎樣寫詞才能緊跟潮流又不會離題太遠?
所以我用 Python 抓取了美國、英國、臺灣、香港、中國大陸四個地區,總共六千萬的歌
詞,其中包括大陸600萬的歌詞,做了一些數據分析的工作,目的就是給你想要的答案。
我的數據源選了蝦米音樂,因為蝦米有詳細的嘻哈音樂分類,其它的如網易雲音樂、QQ、
Spotify、iTunes、StreetVoice,要麼欠缺對歌手音樂風格的分類,要麼分類粗糙,沒法
當做數據源。
選定蝦米音樂之後,寫了好一會代碼,抓取歌詞的爬蟲開始蹭蹭工作了
爬蟲一般會面對兩個問題——
1.代理問題
頻繁地抓取網站的頁面,IP 很容易被封。於是寫了個抓免費代理的爬蟲,抓了八百多個
代理 IP,夠用了。
2.效率問題
10萬首歌,即使是1秒一個請求,那得27個小時,我可等不了27個小時。
於是我決定開10個線程,三小時程序就能跑完。
然後在三小時之後,我收穫一個約100M,49419首歌的數據庫。
看著這滿滿的記錄,感受到蜜蜂辛勤搬運後看著蜂蜜的喜悅,我相信,關於HipHop歌詞的
祕密全部都包含在裡邊了。
接下來,就是一些數據清洗、處理、分析的工作。
蝦米的歌詞都是用戶編輯上傳的,格式不適用數據分析,所以我得把無用的符號、編曲、
作詞之類的信息除去(格式統一有多麼重要啊朋友們),然後中英文各自分詞。英文需要
去停詞(對數據分析無用的詞,一般沒有實際含義,如 is、on、at、which),大小寫變
換,以及詞形變換。英語中詞彙有單複數、各種時態,為了易於分析,需要還原為詞幹。
另外不管是中文還是英文都需要詞性標註,一般來說分析也就分析名詞和形容詞,這些現
成的開源庫使用(此處省去1000萬字)。
總之,我都搞定了,以下就是分析結果。我們先看看大陸地區的 rapper 歌詞裡有都寫啥
關鍵詞
“世界”和“時間”佔據首位,“老子”、“兄弟”、“baby”、“money”、“bitch”
、“real” 等詞倒是讓 rapper 的形象呼之欲出。rapper 的詞裡頻繁提到“音樂”、“
歌詞”、“旋律”、“歌曲”,可見他們對自己的音樂非常在乎。嘻哈音樂由於有
freestyle 的文化,對親自寫詞有要求,否則就不 “ real ” ,從節目中他們對偶像
rapper 的 diss 也能看出來。
接著,我們來看看與其他幾個地區的關鍵詞對比↓
看起來 rapper 的生活差不多,無論大陸還是臺灣,都喜歡喊 “baby”,身邊都有一群
“兄弟”和“朋友”,有“夢想”,平時都在唱 “hip hop” ,有“煩惱”了就罵罵街

亮點是美國的關鍵字 top1 是 “nigga”,這個和帶有種族歧視意味的 “nigger” 還不
是一個詞。關於這個Tupac 有過一個有意思的定義。
作者: peter080808 (peter)   2018-01-23 15:45:00
美國黑人最多的單字應該是N開頭的"那個"嘻哈文化就幫派文化啊
作者: lebronlp097 (呵呵軒)   2018-01-23 15:50:00
完全不意外是尼哥這個詞

Links booklink

Contact Us: admin [ a t ] ucptt.com