版上各位好
小弟近期正在學機器學習
目前想用一些dataset來做練習
而我有一個疑問想問
如果data中有文字資料,那應該需要先用
labelencoder去把文字轉數字資料
但是如果今天我訓練完了
想用testing data來做驗證
那testing data的那些文字也需要轉成數字
才能丟進去驗證
那麼testing data中文字轉為數字的時候會不會有可能和在training data轉出來的不同
(例如training data上的apple對應到0
會不會在 testing data上的 apple對應到5之類的,
如果會那麼應該如何處理才好呢?)
感謝版上大大不吝賜教
作者: numpy (那麼拍) 2019-11-05 00:29:00
所以一開始要連同 testing data 一起餵給 labelencoder
之前做的做法是做出一個dictionary 在0位置放unknown. Test和training用同一個dict轉test中沒在trainin出現過的都丟到unknown
numpy大感謝你的建議little大 請問要如何比較兩組資料中有哪些是對方沒有出現的 並且將那些資料的位置找出來呢
先各自轉成token (or數字), 然後把token 存成dict再用set取出unique的字, 再用set的methodDifference or Symmetric differencenote:數字的話要確保 字到數字 是 one to one