[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
入門(寫過其他程式,只是對語法不熟悉)
[問題敘述]:
透過logit model,用各個商品的屬性及是否閱讀商品評論,預測消費者會購買哪種商品
為了實作predit()要分割資料集
已知caret package的createDataPartition能將訓練與測試集的商品依比例平均分布
但資料集為long format,每四列為一個單位(一個受測者產生四列資料,為四個商品)
使用createDataPartition後,資料被打散了,不再是每四列為一單位
該如何保持資料每四列一個單位,但訓練與測試集中的商品還是可以按比例分布呢?
ps被購買的商品比例本來就不平均,但希望訓練集與測試集的比例相同,例如10:5:2:1
[程式範例]:
共有432名受測者,1728列資料,long format資料集如圖
各商品被購買的比例大約為
HighJ HighU LowJ LowU
272 80 60 20
library(caret)
Train <- createDataPartition(mydata$purchase, p=0.6, list=FALSE)
training <- mydata[ Train, ]
testing <- mydata[ -Train, ]
照上述程式碼跑無錯誤訊息,但是資料被打散
推測可能是用來取index的mydate$purchase有問題,不知道該怎麼改才好@@
[環境敘述]:
R version: 3.2.3 (2015-12-10)
Platform: x86_64-w64-mingw32
Running under: Windows >= 10
[關鍵字]: