[問題] 平均分布分割測試與訓練資料 shirley7483 PTT批踢踢實業坊

[問題] 平均分布分割測試與訓練資料

作者: shirley7483 (Shirley) 2017-06-21 17:43:40

[問題類型]:
程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
入門(寫過其他程式，只是對語法不熟悉)
[問題敘述]:
透過logit model，用各個商品的屬性及是否閱讀商品評論，預測消費者會購買哪種商品
為了實作predit()要分割資料集
已知caret package的createDataPartition能將訓練與測試集的商品依比例平均分布
但資料集為long format，每四列為一個單位（一個受測者產生四列資料，為四個商品）
使用createDataPartition後，資料被打散了，不再是每四列為一單位
該如何保持資料每四列一個單位，但訓練與測試集中的商品還是可以按比例分布呢？
ps被購買的商品比例本來就不平均，但希望訓練集與測試集的比例相同，例如10:5:2:1
[程式範例]:
共有432名受測者，1728列資料，long format資料集如圖 http://imgur.com/pWhvNCF
各商品被購買的比例大約為
HighJ HighU LowJ LowU
272 80 60 20
library(caret)
Train <- createDataPartition(mydata$purchase, p=0.6, list=FALSE)
training <- mydata[ Train, ]
testing <- mydata[ -Train, ]
照上述程式碼跑無錯誤訊息，但是資料被打散
推測可能是用來取index的mydate$purchase有問題，不知道該怎麼改才好@@
[環境敘述]:
R version: 3.2.3 (2015-12-10)
Platform: x86_64-w64-mingw32
Running under: Windows >= 10
[關鍵字]:

作者: f496328mm (為什麼會流淚) 2017-06-21 18:06:00

有id就好辦了，去sample，然後 %in% 就可以抓出來了sample(nrow(data)/4,train.amount)上面是取 train 的 id，之後去抓相同的id即可data[ subject_id %in% train_id ]

作者: obarisk (OSWALT) 2017-06-21 18:54:00

我們的google不一樣？https://www.google.com.tw/search?q=r+%25in%25&ie=utf-8&oe=utf-8&gws_rd=cr&ei=RFBKWYHnJ4S20ATg3oz4BQhttps://tinyurl.com/yapu9sbe我貼網址的能力有問題https://stackoverflow.com/questions/10385863/the-r-in-operator?`%in%`

作者: f496328mm (為什麼會流淚) 2017-06-21 22:24:00

mydata[ "subject_id" %in% "train_id" ] 把引號拿掉如果會有error 那把mydata轉成data.table型態

作者: shirley7483 (Shirley) 2017-06-22 08:33:00

成功！使用data.table好快速啊，馬上筆記起來，感謝~

作者: celestialgod (å¤©) 2017-06-22 20:07:00

樓樓上只是少一個,所以才出錯

作者: f496328mm (為什麼會流淚) 2017-06-22 20:32:00

原來不是引號的問題QQ

data.table可以不用,，但data.frame, matrix一定要

繼續閱讀

[問題] 如何把變數帶入SQL語法？eco100 [問題] update or replace reactiveclansoda [問題] 軸上數字標示問題PhysicsBoy Re: [問題] 在R中有處理http query stringjklkj Re: [問題] 折線圖+長條圖呈現locka [問題] 關於Logistic迴歸的問題hatemath1991 [問題] 爬蟲問題cd12631 Re: [問題] 折線圖+長條圖呈現celestialgod Re: [問題] 折線圖+長條圖呈現celestialgod Re: [問題] 在R中有處理http query stringcelestialgod