[新聞] 讀冊善用開源打造二手書平臺 靠資料採礦

作者: MyAll (靜岡玉露)   2016-05-17 21:57:27
讀冊善用開源打造二手書平臺 靠資料採礦推薦成功吸引百萬人
http://www.ithome.com.tw/people/105845
畢業於景文科技大學資訊管理系,曾於博客來網路書店負責電子書系統開發,2011年加入
讀冊生活,主導IT部門,陸續開發二手書C2B2C寄倉販售系統、智慧圖書搜尋引擎及推薦
系統等
文/辜騰玉
http://static4.ithome.com.tw/sites/default/files/763cio-960.jpg
讀冊生活系統Web部協理 姚清馨
在7年前,網路二手書店尚未開張時,民眾要買賣一本二手書需翻越重重關卡,不但缺乏
一個友善便利的銷售平臺,自行銷售需耗費不少時間和功夫,若拿去二手書店,還得任由
書商削低價格。而對於書商來說,最難的部分在於無法掌握二手書的來源與數量。
因此,學思行數位行銷早在2009年就鎖定了這一片尚未被成功開拓的藍海,打造了讀冊生
活(Taaze)網路書店,同時販售新書、二手書、電子書與回頭書等,至今甚至擁有超過
10萬名二手書賣家。
讀冊生活採用C2B2C寄倉販售的方式來經營,賣家可以透過手機刷ISBN條碼,將自己的二
手書上架到讀冊生活網路書店中,經自行決定銷售價格後,再將書本透過超商或郵遞方式
寄至讀冊生活,後續這些二手書的倉儲、銷售、出貨等流程便交由讀冊負責。
不過,初期讀冊生活的二手書銷售表現並不理想,一方面由於初期會員數還不夠多,另一
方面則是民眾對二手書的購買意願不高。
直到2012年,讀冊生活導入了一套自行開發的二手書書況影片自動化錄影建檔系統,替每
一本二手書拍攝影片,讓消費者可以在網站上清楚看到二手書的實際書況,到這時候才真
正地提升讀者的購買意願,不過要做到這件事情並不容易。
讀冊生活系統Web部協理姚清馨表示,為了加速並提升二手書的處理流程與品質,人工僅
負責貼條碼、建檔與攝影過程中的翻頁工作,以確保書況能完整呈現,而後續包括攝影、
影片轉檔、儲存與上傳皆由系統自動化完成。
而其中最困難的部份,就是要控制相機自動完成拍攝、轉檔、建檔的流程。他解釋,當一
本二手書被送到倉庫後,會先由人工貼條碼、建檔,與攝影前先掃描書上的條碼來確認是
哪一本書,之後便透過一套開源軟體DirectX,來操控錄影流程。
錄影完成後,檔案會自動從avi檔轉成mp4檔案格式,再上傳、儲存到影音伺服器中,同時
,系統也會自動進行資料整理,將影片編號註記到資料庫中,整個拍攝流程只需要30秒。
民眾點開該本二手書的網站頁面時,系統便會自動到串流伺服器中抓取對應的影片檔案,
且不須下載就能及時觀看。而這套串流伺服器,也是採用開源軟體Red5,姚清馨表示,他
們除了核心的資料庫系統採用Oracle,其他延伸出去的應用軟體幾乎都是開源軟體。
這套二手書書況影片自動化錄影建檔系統上線後,讓二手書買賣流程更加透明,也提升民
眾購買二手書的意願。2014年時,讀冊生活已經累積超過7萬名二手書賣家,現在更超過
10萬名二手書賣家。
不僅如此,根據讀冊生活的統計數據,這些讀冊生活的二手書賣家,平均每賺到100元,
就會拿出80元於讀冊網路書店買書,其中的10元領出來,另外的10元則留在讀冊生活中,
這種以書換錢,再將錢拿去換書的模式,形成了正向的購書循環。
不過,要在短短7年內打造這樣的正向購書循環並不容易,讀冊生活必須不斷設法讓有購
書意願的消費者,到讀冊生活購書,甚至在買新書的同時,也多買幾本二手書。
靠開源軟體建推薦系統
其中一個吸引讀者的作法,姚清馨表示,他們在2013推出首頁個人化服務,背後採用資料
採礦技術,自行開發一套推薦系統,根據使用者的瀏覽習慣,來改變每個使用者的首頁看
到的內容,推薦讀者可能有興趣的其他書籍。
在他們自行開發推薦系統之前,原本有一套委外的推薦系統,但後來他們發現該系統的推
薦結果不如預期,運算時間太久,且資料更新太緩慢,需要到隔一天才能將推薦書目呈現
給讀者。因此2013年,他們決定自己重新開發一套更符合讀者需求的推薦系統。
姚清馨表示,讀冊生活採用了較新的NoSQL資料庫MongoDB,來儲存大量資料,運算部分雖
然有現成的工具可以提供運算,但最後還是選擇自行開發,選擇NoSQL架構的原因,則是
能符合大量資料儲存。
首先,第一步是要蒐集資料,他們在網站中的每個頁面裡埋下了軟體感測器(Sensor),
來蒐集讀者的瀏覽與使用習慣,以了解哪一個頁面被點擊、且被哪一位用戶點擊,另外還
能知道在每一個頁面中的各個Banner被誰點擊過,以及同一個檔期的Banner在不同頁面中
的被點擊情形,甚至能更精細的知道每個連結(Link)之間,以及網站頁面之間的點擊關
係。
姚清馨解釋,他們寫一個單一程式來將感測器埋在頁面中,再帶不同的參數進去,來蒐集
每一個頁面的訊息。目前讀冊生活的推薦系統,可以做到在蒐集資訊3分鐘後,便於網頁
呈現出推薦的書給讀者。
不過,由於每位讀者的單一點擊動作都是一筆資料,其中每秒可能產生幾千到幾萬筆,而
產生了大量的資料,若用原本的網頁伺服器來執行這些工作,會拖垮整個網站的效能。
因此,他們另外採用了一套開源軟體Syslog,自己架了一臺Syslog伺服器來儲存資料,姚
清馨解釋,Syslog是一套專門開發來儲存大量Log資料的開源軟體,他們先將所有蒐集到
的資料儲存在Syslog伺服器之中,之後要進行資料分析的時候,再從Syslog伺服器中,透
過程式把文字檔讀取出來,轉換成MongoDB可讀取的資料,再傳送給MongoDB資料庫。
他們在MongoDB資料庫中,把常用的欄位做成索引(Index),以進行快速搜尋。姚清馨也
說,目前Syslog伺服器的資料每半年大約會累積多達2億筆資料,因此他們設定半年刪除
一次資料,來確保系統的使用效能。
依據讀者的帳號來找出資料中的所有相關的紀錄,先從兩億筆紀錄中的有關資料,抓出最
近瀏覽的書籍類別,再到Oracle資料庫中找出同類型的書籍,並刪去已經購買的商品,此
外,也會特別從熱門書單中挑選書籍,最後分析得到的資訊就會直接放到網頁上面,以呈
現給讀者。
姚清馨表示,讀者必須要登入會員之後,才會出現個人化的首頁,若讀者沒有登入網頁,
這些網頁蒐集到的瀏覽紀錄,便只能用於進行內部資料分析,像是分析熱門的書籍類型與
書種。
他也表示,希望做到將推薦結果很自然的呈現給讀者,讓讀者能延續當下的閱讀與瀏覽趣
味,而不會過於突兀,因為善用資料採礦最棒的地方在於,讀者不會發現你正在進行資料
採礦,而干擾他們的行為。
自建程式蒐集使用者行為資料
不僅如此,為了驗證資料採礦與資料分析的準確性,讀冊生活除了用自己寫的程式來蒐集
網頁行為資料外,也同步採用了Google Analytics(GA),在網頁中嵌入GA提供的辨識碼
,來監控每個頁面的流量,並將兩邊蒐集到的數據結果進行比對,以驗證自行開發的感測
器準確度。
姚清馨表示,最後發現Google Analytics和自行開發的程式得出的數據結果是符合的。因
此,他們便能使用自己蒐集到的數據,進一步做資料採礦與分析。他認為,大數據分析如
果缺乏可比較的基準值,運算出來的結果就很難有說服力。
他表示,Google Analytics介面化程度較高,許多公司內部的產品經理可以很快速且方便
地了解頁面行為,但是Google Analytics只包含流量資訊,而他們自行開發的系統則可以
進一步分析。自己蒐集的資料可以更精緻。
此外,讀冊生活也採用了另一項可支援全文檢索的開源軟體Lucene,姚清馨表示,他們目
前有一百多萬本書,不可能每次都到核心資料庫撈取資料,因此,他們會將資料每日做更
新整理丟到Lucene,用來存放靜態資料,避免影響到核心資料庫的運作。
姚清馨在2011年加入讀冊生活,當時讀冊生活的系統幾乎完全委外,直到姚清馨接手後,
才一一將委外的系統收回自行開發,包括進行客製化,與更符合圖書產業需求的系統。
姚清馨表示,圖書產業有許多特殊的需求,委外開發的系統比較難以針對圖書產業、或企
業內部的需求進行快速的調整。
除了推薦系統之外,包括網站中的搜尋引擎也是如此。原本讀冊生活採用的搜尋引擎是委
外系統,但是他們發現,將一般商品的搜尋引擎用於圖書搜尋的效果並不理想,其搜尋結
果不夠精準,系統也不夠穩定。
姚清馨舉例,假設讀者要搜尋嘉年華會這本書,若是一般商品的搜尋系統,在斷詞上會將
年華切成一個詞,因此搜尋結果中,會出現許多如年華少女、年華似水等相關的書目,與
讀者欲搜尋的目標落差極大。
因此,讀冊生活在2012年決定自己重新開發一套符合圖書產業需求的搜尋引擎,增加了更
多在語意、切字與斷詞上的篩選權重,為了提供更精準的圖書搜尋服務。
姚清馨解釋,除了套用現成的通用詞庫之外,他們也自行開發其他字詞分析,依照整個字
串的邏輯,額外加上更多運算模式與處理邏輯,如新增與書名有關的斷詞、擴充額外詞庫
,並調整這些切字、斷詞的篩選權重,讓書目的搜尋結果更加精準,即使用口語化的句子
,或是輸入錯別字也可以搜尋得到。
http://static4.ithome.com.tw/sites/default/files/images/763cio-400-1.jpg
讀冊生活系統Web部協理姚清馨表示,善用資料採礦最棒的地方在於,消費者不會發現你
正在進行資料採礦,而干擾他們的行為。
CIO小檔案
讀冊生活系統Web部協理 姚清馨
●學歷:景文科技大學資訊管理系
●經歷:曾任職於威強電工業電腦,負責研發數位播放器系統,也曾於博客來網路書店
負責電子書系統開發,2011年時加入讀冊生活,主導整個IT部門,陸續開發二手書
C2B2C寄倉販售系統、二手書書況影片自動化錄影建檔系統、智慧圖書搜尋引擎、個人化
首頁及推薦系統等。
公司檔案
http://static4.ithome.com.tw/sites/default/files/images/763cio-400-2.jpg
學思行數位行銷(讀冊生活Taaze)
●成立時間:2009年4月
●業務介紹:網路書店,販售新書、回頭書、雜誌、文創商品、電子書;線上二手書買賣
;名人講座及不定期實體活動
●員工人數:90人
●董事長:張天立
●總經理:鄭健民
●資本額:1億2千萬元
●公司地址:臺北市松山區南京東路四段56號6樓
●網址:www.taaze.tw
資訊部門檔案
●資訊部門名稱:系統WEB部
●直屬主管:總經理鄭健民
●資訊部門主管職稱:協理
●資訊部門主管姓名:姚清馨
●資訊部門人數:10人
●每年IT預算:100萬
IT部門大事紀:
●2001年:二手書C2B2C寄倉販售系統上線
●2011年:中英文電子書系統開發、上線
●2012年:開發二手書書況影片自動化錄影建檔系統
●2012年:開發智慧型圖書搜尋引擎
●2013年:開發電子商務平臺串接系統,包括商品資訊更新、即時庫存更新、訂單交換與
物流貨態資訊更新、會員推薦購買系統上線、推出個人化首頁服務
●2014年:開發會員雲端書櫃系統
●2015年:建二手書交易資訊系統
作者: kromax (kromax)   2016-05-17 22:30:00
蠻厲害的!!!
作者: LoyalFish   2016-05-17 23:39:00
讀冊的搜尋爛透了
作者: descent (「雄辯是銀,沉默是金」)   2016-05-18 00:18:00
推薦系統有準嗎?
作者: lturtsamuel (港都都教授)   2016-05-18 01:05:00
其實大家都是自己找的吧= = 這推薦系統蠻破的
作者: CCY0927 (只是個暱稱罷了)   2016-05-18 06:47:00
讀冊的搜尋我有懷疑過其實是用 Google suggest 在弄。因為發生過很多次推薦字有出現書名,但實際上卻找不到那本書的情況;也發生過完整書名找不到,要用部分書名作為關鍵字才能搜尋出來的情況
作者: a031405 (a031405)   2016-05-18 16:57:00
我覺得搜尋某種方面來說比博客來強欸
作者: aeee49 (葉同學)   2016-05-18 19:30:00
讀冊搜尋系統不好用
作者: descent (「雄辯是銀,沉默是金」)   2016-05-18 23:08:00
台灣書店是賣書的, 才不會花錢在這些技術上。中國亞馬遜的推薦系統準多了, 一本接著一本買
作者: kihifung (我有一把刀!)   2016-05-19 01:10:00
讀冊的系統很爛 但是用亞馬遜比差太多了 人家是亞馬遜
作者: enjoyee (我也想當理工宅呵呵呵)   2016-05-19 01:17:00
即便搜尋有點問題,總的來說我還是覺得讀冊很棒,頁面的呈現即便是第一次進到這個網站的人也覺得相當友善。

Links booklink

Contact Us: admin [ a t ] ucptt.com