[閒聊] LLM 推理用機器 sachialanlus PTT批踢踢實業坊

[閒聊] LLM 推理用機器

作者: sachialanlus (yeh) 2024-06-16 15:43:26

由於最近 LLM 發展越來越快，剛好自己也有一些 LLM 的需求。
但又不想要使用 OpenAI 或是其他供應商的服務。
從前幾個月開始就有想要自己弄個機器來架設服務的想法。
最近開始也對高參數的模型越來越好奇，但由於大容量 VRAM 的 GPU 實在是買不起，所以想說是不是轉用 CPU 來玩玩看。
我看了很多技術分析和 Benchmark，基本上都說 LLM 的 inference 目前是 memory bound，也就是 memory bandwidth 是瓶頸。
所以按照這個思路用 CPU 來跑模型的話首要提升的就是 DDR 的 bandwidth。
我看了下 threadripper 和 xeon 的幾個型號，其中我覺得 CP 值比較高的是 Intel 3435x 可以 8 通道 DDR5-4800，換算起來頻寬大概是主流 PC 的 3-4 倍。
但我去拉了下估價單 W5-3435X (56500$) + Asus Pro WS W790-ACE (27990$) + Kingston 32GB 4800MT D5 ECC * 8 (40800$) = 125290$
為了要用這顆 CPU，整個成本算起來根本不比買多張卡來得划算多少。
我就在想是不是還是 GPU 多卡買一買就好了，反正即使 256GB 的 Ram 放得下的模型在我的平台上根本也跑不動。
唯一想到的用途就是同時開很多個 instance 來服務不同的需求。
(上上個月還有海淘一張 2080Ti 22G 來試試看，結果用沒幾天就壞了... 還好能退)
最近也有在看 AMD 的 Strix Point，這代預期的 iGPU 是 RDNA3+ 16CU 大概 RTX-2050 的效能，但因為可以 DDR5-5600 所以擴充性會比 Strix Halo 只能用 LPDDR5x 來得好。
選 Strix Point 就等同於犧牲了當初追求的效能，但優點是低功耗而且便宜。
是不是應該等 Strix Point 出來組一台 128GB 的平台來跑跑小模型就好。
相比多卡的方案用 iGPU 的好處就是低功耗，但效能實在是天差地別。
有人也有類似的煩惱嗎?
我自己的話預算希望是 100k 以內，最多捏到 150k。

繼續閱讀

[菜單] 15k 輕度遊戲機世紀帝國2決定版b2993 Re: [請益] ikea IDASEN電動升降桌請益f26724309 [閒聊] Computex 2024之我的所見所聞(存儲篇)Cubelia Re: [情報] 究竟是 PC 革命還是另一個曇花？淺談 Wins78513221 [菜單] 30K遊戲機規格更新qwe52963 [菜單] 50K PIX4D mapper 工作機gagoga [請益] 想外網、內網互相切換該買什麼硬體？ludashi [菜單] 40K遊戲機LEEptu [請益] 空冷散熱塔回流焊跟熱管數量對打哪個好MOMONGANAITO [菜單] 36K影音遊戲機BuddyHield24