各位版友好:
最近在實作演算法 sub routine 時遇到了效能問題,sub routine 的目標是在給
定Z矩陣的情況下,找到最好的W來使得 L(ZW) + C*Tr(W'W)最小,其中Loss function 的
長相是 \sum_{(i,j) sample} -R_{ij}log(sigmoid(ZW_{ij}))-(1-R_{ij})log(1-sigmo
id(ZW_{ij})), R 是觀察到的資料,取值在{0,1}。C 是 regularization constant.
然後 minimize function 的gradient 會是 ▼W = Z'▼L(ZW)+2CW
資料型態 : Z 會是一個 N*K 的sparse 矩陣, W 會是 K*N 的 dense 矩陣 , R 會是 N*N
的 sparse 矩陣 (只考慮有被抽樣的點), N >>> K, N/K = 10^2~10^3 。
當前解法 : 之前已經實作了一個 Z 是 dense 的版本,由 matlab 經由 mex 把資料傳到
C裡,然後我再在C裡使用 liblbfgs library 求解傳回。而我需要做的事就是給定w 求
gradient給liblbfgs,目前的複雜度是 nnz(R)*K (算ZW) + nnz(R)*K (算Z'▼L) + K^2
(算+CW)
現在我有問題的點是我有很多可能的改進方向,不知道該選擇什麼比較好。
(1) 沿用原本的架構,只是將Z是sparse 也考慮進去,再自己利用迴圈實作sparse 矩陣乘
法,複雜度應該是 nnz(R)*K*r (evaluate ZW, 其中因為Z的row sparse,在算ZW_ij可能
平均起來只要做 rK 次) + nnz(R)*K*r (同理) + K^2
結果 : 速度大概會變快1/r 倍
優 : 我只要改改code就好,也不用學新東西
缺 : 因為自己實作,不會平行處理,沒有利用到 multi core
(2) 在做稀疏矩陣乘法時直接使用類似Intel-MKL 的library 來加速
優 : 簡單,之前有修過數值方法,還記得怎麼call API
缺 : 我不太清楚要怎麼使用ICC 來編譯mex file,不知是否相容,可以 mex -setup ICC?
不清楚實際怎麼implement,無法細緻的分析
(3) 交由GPU來計算,不管是在C裡自己寫還是就直接在matlab 裡做,用matlab提供的GPU
API
優: 可以很平行的處理?學習GPU運算增強自己的能力XD
缺: 沒有寫過這樣利用GPU去做事的程式,learning curve有點抖,可能需要花很多時間找
資料或實作,一樣可能很難分析。
(4) 可能還有其他方法? 或者要進一步考慮Block Algorithm 或 catch affinity
版友覺得應該朝哪個方向努力呢?這個subroutine會很常被call到,效能是非常重要的考量