作者:
wwwh0225 (SeaWave)
2022-06-16 00:12:00適逢昨日(6/15)邦邦又輸了,宗賢又E了,又經歷一場歡樂的比賽。
小弟我就想說分享本人這學期 Python 課程期末報告的部分內容給大家,中間會省
略一些艱澀或是太理論的部分。
本文的目的是期許大家持續讓棒球板維持高流量呀~(雖然流量密碼掌握在某隊的手上)
好的,廢話不多說,就讓我們進入正題!
本研究將搜集 PTT baseball 板中,自中華職棒 33 年開季富邦首戰至富邦悍將對樂天
桃猿三連勝前 PTT 文章資料並特別針對富邦悍將進行分析。
文章資料日期取自 2022/04/03 至 2022/05/18,一共 9317 篇文章。
本研究使用繁中版本 jieba 切詞套件進行斷詞分析,但其實用中研院的 CKIP 套件
應該會更好,但跑太慢了,所我還是用 jieba。
資料分析環境預先處理:
在進行切詞之前,我特別先針對 ptt 棒球板的一些專有名詞加入字典之中, 比如:
‧ 現役球員、教練名稱
‧ 各隊暱稱,如:「邦邦、爪爪、吱吱、龍龍、喵喵」等
‧ 棒球板專有梗,如:「煮粥、滿壘計」等
‧ 移除停止詞,如:一些標點符號和了、嗎等語助詞
那我們直接來看文字雲~
首先,這是文章「標題」進行斷詞後所繪製的文字雲:
https://i.imgur.com/EFx3QX4.jpg
誰是流量密碼,就不用多說了吧,連各種今日文、炸裂文都打敗不了的富邦悍將,
真是懷念那段單純的時光。
再來看看大家的「留言」分析出來的文字雲:
https://i.imgur.com/LX85Jye.jpg
正如我前面所述的,我有針對你各位的口語把邦邦放進去,所以可以看到富邦跟
邦邦兩者可說是平分秋色。除此之外,「笑死」也算大家常說的話,看來還是
不能忽視某位高中生的影響力。
再者,我們來看看大家想到邦邦會想到什麼東西,在這裡我使用 word2vec 模組計算
個單詞的詞向量並計算餘弦相似度用以取得個字詞之間的相關性。
https://i.imgur.com/iO6hfYt.jpg
反正這個表,懂的人就懂。(煮/粥)
最後,我們來看看在這段期間,中華職棒五隊每日相關發文的折線圖,這張圖是這樣畫
的,我會去看每篇文章標題的關鍵字(隊名、球員名、教練名、暱稱等等)然後去比較
出現的數量,如果平手就以「邦、爪、吱、喵、龍」的順序進行分類。
(若文章都沒有關鍵字,則不納入討論範圍)
https://i.imgur.com/VshOR2G.jpg
我們可以看到「邦文」的數量可說是海虐各隊,百萬爪迷已不復存在,邦迷才是王道!
而這張折線圖約有五個高峰,而我們在對其進行事件回顧分析,來看看當時是發生了什
麼事情,導致邦文有極高的產量。
1. 04/08:富邦悍將陽耀勳於延長賽 11 局擊敗中信兄弟,開季三連敗後 取得首勝。
2. 04/15~04/16:富邦悍將守備核炸連兩戰投手非自責分為 9 分和 6 分 且
李宗賢單局3E,開季 9 戰 8 敗平聯盟紀錄。富邦與兄弟發生
板凳衝突及跑壘爭議。
3. 04/24:富邦悍將對戰味全龍,單場帳面 3 次失誤且有不少守備瑕疵, 且吞下 15 次
三振。
4. 04/30~05/01:4/30: 富邦悍將 7 連敗同時外帶 2E。05/01: 富邦悍將 取得本季第二
勝且對為本季對獅隊首勝,富邦悍將單月勝率 100%。
5. 05/13:富邦領隊說要找業餘游擊手補洞,引發譁然。富邦悍將
8連敗,共 4 勝 22 敗。
就簡單的分享到這裡,感謝邦邦這段時間給我的歡樂,大家本季還是要踴躍進場呦,
尤其是新莊的悍將家人們~~
(附上本季進場新莊人權)
https://i.imgur.com/uB9XU36.jpg
富邦悍將 We will win !?
作者:
bban7225 (DarenLin)
2022-06-16 00:14:00看不懂先推再說
作者: luvuhahasiao (我愛你哈哈笑) 2022-06-16 00:19:00
開季9戰8敗 打錯了
笑死我大學學弟在做大數據分析報告也把富邦連敗拿來寫大家都在消費富邦XD
作者:
edhuang (隨便啦)
2022-06-16 00:22:00那個“好”是因為發錢嗎
作者:
hhhhh11 (hhhhh11)
2022-06-16 00:25:00笑死 分析這個幹嘛啦
作者:
MrBigTree (Mr.BigTree)
2022-06-16 00:25:00笑死 要是以前學程式能有這麼有趣的就好了
作者:
S0323109 (Milk1215)
2022-06-16 00:26:00推推
作者: QQ101 2022-06-16 00:30:00
就一堆人 看笑話 看邦能多爛啊
其實常駐在板上我也有發現 富邦的討論文真的很多……
作者: a925a05 (程程) 2022-06-16 00:31:00
這真的要推 做的太詳細XD
棒球迷果然是一群沒有同理心的人(笑死原PO太強了 這要花很多時間
作者:
Waitaha (Waitaha)
2022-06-16 00:38:00好
作者:
lrhn0289 (lrhn0289)
2022-06-16 00:39:00唯一只有4/17那天輸給發狂的喵喵
作者: tsaichichi 2022-06-16 00:41:00
純推專業分析
作者: Ramarque666 (台大菜比八) 2022-06-16 00:44:00
推推推
作者:
yongxchen (404 not found)
2022-06-16 00:45:00推分析
作者:
ssmr392 (ssmr392)
2022-06-16 00:45:00推分析哈哈哈
作者:
ragrance (ragrance)
2022-06-16 00:55:00笑了
作者:
lyt5566 (無糖奶茶很難喝)
2022-06-16 00:56:00笑死
作者: hunterhsu91 (獵人哥) 2022-06-16 01:08:00
人才
作者:
nashQ (小N)
2022-06-16 01:08:00算你厲害
作者: slimfat0202 (slimfat0202) 2022-06-16 01:08:00
所有棒球迷都在幫邦找解方,除了酸,其中還是有人提出不少高見
作者:
luyeegi (路易吉)
2022-06-16 01:15:00這個分析很讚!
作者:
Spade (JACK)
2022-06-16 01:17:00有夠沒同理心 共勉之
作者: naiyomin (梅花7) 2022-06-16 01:22:00
你在認真什麼啦哈哈哈
作者: its0130 (its) 2022-06-16 01:25:00
笑死
作者:
chihcsck (xxxxXD)
2022-06-16 01:40:00果然要人邦
作者: FourLi (火龍果葛格) 2022-06-16 01:44:00
笑死 認真分析文給推
作者:
CCptt (CC P TT)
2022-06-16 01:47:00笑死
作者:
oncemore (超級喜歡林瑋恩)
2022-06-16 02:02:00給推,一直很期待有人做
慢的原因在於ckip要跑tensorflow 整個前置訓練就要快20秒 不過應用起來其實很快 官方有提供gpu版加速(離題了
作者:
rei196 (棉花糖)
2022-06-16 02:26:00裡面的關鍵字怎麼可能沒有我就問?
作者:
GoIce (去冰)
2022-06-16 02:28:00笑死
jieba自訂詞字典要設定多一點才能切出更多資訊 cos那個表可看出切詞不夠好太多雜訊
作者: sam830219 (湯都熬了你跟我說LNG不開) 2022-06-16 02:47:00
好!
可以試試用LDA跑看看主題分析XD結巴那邊可把版上常用的詞放進去詞庫 斷詞效果會比較好一些
作者:
ImMACACO (Clean the world)
2022-06-16 02:59:00笑死
既然跑了詞頻 看試試跑共現詞 最簡單就Pointwise MutualInformation之類的比如笑死 會跟大谷一起出現XDD
作者:
wu5834 (美柑我è€å©†ï¼)
2022-06-16 03:09:00笑死 靠北喔
作者:
sleepmilk (sleepmilk)
2022-06-16 07:01:00笑死 有夠強
作者:
hsnu2000 (請讓我一鵰斃命)
2022-06-16 07:04:00還以為來到八卦版
作者:
JLPT (日檢小惡魔)
2022-06-16 07:35:00粗暴的言論倒可不必
作者:
S100A4 (S100A4)
2022-06-16 08:07:00太猛啦!有數據有推!
作者: s29961091 2022-06-16 08:13:00
太神拉
作者: double5915 2022-06-16 08:33:00
收視保證
作者:
winda6627 (Fallen Wing)
2022-06-16 08:56:00看得出來你含淚在支持..
作者:
BuBuLoop (腸胃不服從)
2022-06-16 08:59:00這是不是你NLP或是IR 的期末報告?
作者:
cnshi (可是啊)
2022-06-16 09:01:00笑死
作者: scott29 2022-06-16 09:14:00
好!笑死
作者: kixer2005 (可惡想__) 2022-06-16 09:28:00
浪費才能
作者:
gary67 (洄瀾)
2022-06-16 09:42:00看不懂,但用心給推
這斷詞有點糟 不知道jieba有沒有使用者自訂辭典
nlp 專業推原 po 有沒有考慮寫成 blog 文丟到hackmd或medium想看程式碼
作者: csylvia (Sylvia》加油!) 2022-06-17 01:47:00
認真分析給推XD