本人之前都是用 SQL + Mining tools (例如MS-SQL Analysis service , SPSS Modeler)
之前大部分是用 SQL 整理資料
之後再用 mining Tools run mining (包含調參數等等)
例如我們做一個羅吉斯回歸,去預測信用卡客戶是否會變呆卡
或用 CART 去做回應率分析
現在關於 R 我有一些問題:
1. R的mining 函數支援到那些演算法?
例如:分群,類神經網路,CART 等等?
2. R有辦法調參數嗎?
例如分群時分幾群,CART的切點,等等 (這部分在mining tools 都有很強的支援)
3. R怎樣做Mining前的資料處理?
SQL 強的地方在於下語法可以做很多資料預處理
例如:資料中只有生日要轉換成年齡,還有一些更複雜要套公式轉換的部份等等
SQL 的資料可以存很多資料
R 在預處理部分的強度如何?
總不能一直讀EXCEL的資料吧?
我要表達的是,在資料面SQL 資料庫有很強大的SQL語法,跟儲存面
R 的方式?
4. 這張圖 http://i.imgur.com/iMTOAoG.jpg
是否過譽?
以MS-SQL mining 而言,建構好一個預測模型,可以利用MDX等等
去對這個Model 做一些處理,例如輸入資料做預測等等
而且也有很多圖形介面的輸出
以上幾點問題