※ 引述《app325 (艾波)》之銘言:
: Deepseek 橫空出世
: 應該讓大家都嚇了一跳
: 程式碼是開源的
: 有高手看的出來訓練成本這麼低的原因是啥嗎?
目前的推測應該是跳過了訓練模型的部分
也就是說不是從0開始構築AI模型,而是用成熟的AI模型來訓練,避免掉很多無謂的試錯
或空轉,也就是之前新聞在說的「蒸餾技術」
AI 系統中的 「蒸餾技術」(Knowledge Distillation,知識蒸餾),是一種 模型壓縮
(Model Compression) 方法,主要用來讓較小的模型學習較大模型的知識,同時保持高
效的推理能力。這種技術能夠在減少計算成本的同時,保留較好的性能,特別適合資源受
限的設備(如手機、嵌入式設備等)。
### 知識蒸餾的基本概念
1. 教師模型(Teacher Model)
- 一個預先訓練好的大型 AI 模型,通常是性能較強但計算量較大的深度學習模型。
2. 學生模型(Student Model)
- 一個較小的 AI 模型,它的目標是學習教師模型的知識,達到類似的預測效果,但
計算量更小、效率更高。
3. 蒸餾過程(Distillation Process)
- 讓學生模型學習教師模型的 軟標籤(Soft Labels),即教師模型對數據的概率分
佈,而不僅僅是標準的硬標籤(Hard Labels)。
- 通常會引入一個 溫度參數(Temperature)來調整教師模型的輸出,使得學生模型
能更有效地學習隱含知識。
### 知識蒸餾的應用
- 語音識別(如 Siri、Google Assistant)
- 自然語言處理(如 BERT 蒸餾版 DistilBERT)
- 圖像識別(如 MobileNet)
- 推薦系統(如個性化推薦)
這種方法可以讓 AI 模型在保證準確度的前提下,變得更輕量、高效,適用於移動設備、
邊緣計算等場景。