Re: [標的] NVDA/AMD 討論 多哪隻

作者: LDPC (Channel Coding)   2024-05-18 08:39:51
人類離變成電池之日越來越近了QQ
這邊是一個openai的demo整理
https://youtu.be/VP2-8jIurUE?si=BlFPm94-752XEkF0
稍微細拆一下上面的demo一些隱藏意義 誠如之前所說的2023 Text-Based GPT4出現後
業界就直接看到戰場要往多模態拚殺 多模態意思就是餵給這些LLM模型從文字理解世界
進化到 把影像聲音轉成文字意涵 在餵食給LLM去理解 大概到去年年中 大家影像刷完
就開始刷聲音多模態 (當然 LeCun很反對把多模態用文字當anchor來理解世界)
到此為止 多模態大概已經刷得差不多 也就是LLM可以透過各類型資料理解世界
多模態資料有
聲音: 可以透過聲音知道你情緒 理解你是大人或小孩
比方說:你如果問LLM 這世界有聖誕老人嗎 LLM聽到你聲音
會叫你 滾 你這死肥宅 如果聽到是可愛蘿莉 就會說 是的 世界是有聖誕老人唷!
這些是傳統聲音轉文字(ASR)再給Text-LLM辦不到的
其餘多模態資料諸如
影像: 理解圖片
生醫: 心跳 血壓 呼吸
金融: 各種時間序列資料
溫度 熱成像
這些都會以文字為anchor (text token)去餵給LLM
那接下來 下個問題 多模態LLM 最佳落地場景為何?->答案是 手機
因為手機是最好的攜帶裝置 可以去理解世界 手機上所有數據都是多模態
就連GPS/WiFi 你如果需要 也可以當作多模態資訊丟給LLM
第二個最佳落地場景是 AR眼鏡 這也解釋為何前幾天Google IO
在替Project Astra鋪路 而事實上多模態LLM其實最適合AR眼鏡
因為 "所見所聽既所知"
戴上眼鏡後 下棋 炒股 把妹 打撞球算角度 全知全能
而多模態LLM其實就是扮演虛擬助手 幫助人類處理現實世界資訊和情報
這也是為何我覺得果家明明有機會可以打一場漂亮戰 但因為果家的記憶體飢餓行銷
注定Gemini-Nano (3B模型) 無法放到iphone (4~6GB) 注定只能走雲端
雲端多模態LLM之王就是openai了 至於為何有人會質疑on-device (<3B)以下模型為何有開發
必要性?都用雲端就好了 答案就是因為有很多模態資料有私密性 不方便上雲端跑
目前針對這類投資就是AMD/NVDA/MU/QCOM MU原因來自多模態吃記憶體 需要HBM這類設計
作者: darkangel119 (星星的眷族)   2024-05-18 10:00:00
死肥仔錯了嗎 哭哭
作者: bustinjieber (賈小斯汀)   2024-05-18 10:18:00
好,250出清
作者: herculus6502 (金麟豈是池中物)   2024-05-18 11:45:00
謝教主明牌

Links booklink

Contact Us: admin [ a t ] ucptt.com