: 題目是用結構資料,包含標題、看板資訊以及1-6小時的愛心數和評論數等等
: 來預測發文後 24 小時的愛心數
來雲一下我可能會怎麼做
如果假設我沒理解錯誤題目的話,應該基於給予的前六小時的資料,
去預測未來24小時候的愛心數吧?
首先這題目我可能就不會考慮用NLP來做處理,主要是資料量可能不足
再加上中文NLP來做除了麻煩外效果可能也不會太好
想法是有了1~6小時的愛心數跟評論量,預測未來24小時的愛心數
基本上標題文字的意義其實可能就不是那麼重大,有強烈特徵的可能只是一兩個關鍵字
而且有了前六小時的數據,基本上不用標題也能夠推估未來的數字
所以覺得這題比較難的是,你沒有6小時之後的資料,所以很難預估一個趨勢
(除非有給完整趨勢資料)
因此我會將看板資訊轉成單純數字的Label,
或是可以取得與看版相關的人氣值正規化後做代替
將標題做關鍵字提取,並且做文字雲把重複的強烈關鍵字與留言愛心數做對應,
重新建一個特徵值
接下來就有完整的特徵值資料,做一下特徵值的關聯性或是強度分析
挑幾個覺得強烈的出來訓練一個模型即可(ML與DL都可以)
(應該用LSTM效果比較好)
基本上能簡單做就不會想太複雜處理,單純一個想法也確定可不可行,供大家討論參考