1.媒體來源:
iThome
2.記者署名:
文/王宏仁 | 2023-12-06發表
3.完整新聞標題:
GPT-4V最強對手來了,Google多模態Gemini模型登場,手機不連網也能從錄音檔摘要會議
紀錄
4.完整新聞內文:
Google正式推出了原生多模態的大型語言模型Gemini,可以同時支援文字、圖片和聲音的
輸入。在32項AI測試中,有30項的評分超越了OpenAI的GPT-4V。Google執行長Sundar
Pichai強調,Gemini是Google有史以來最強大也是最通用的模型。Gemini預計推出三種版
本,包括了模型最大的Ultra版、通用性最廣的Pro版,以及可以在手機裝置上運作的Nano
版。
Google展示了一段讓人驚訝的實測影片,來呈現Gemini多模態的回答能力,讓Gemini一邊
看著(輸入)影片來解讀影片中畫面的內容。例如Gemini可以一邊解讀影片中,展示人員
用手即時畫圖過程,每一個動作所對應的意義,這是隻鴨子,現在在水上游泳,有藍色外
觀。當展示人員拿出實體玩具鴨子按壓發生聲音時,AI甚至打趣的說,真的拿出了呱呱叫
的鴨子,AI還能糾正展示人員對於「鴨子」中文發音的重音位置錯誤。 AI能分辨人手勢
代表的意義,也能分辨不同物體的異同,例如都是食物,或都是圓體。看影片還能推理出
哪個杯子藏了硬幣,彷彿就像人邊看影片邊解說的行為。
https://youtu.be/UIZAiXYceBI
Gemini可以同時分辨和理解文字、圖片和聲音,也可以用來分辨和解釋幾種熱門開發語言
,包括Python、Java、C++和Go語言,可以理解跨開發語言來推論複雜訊息。Google也用
了Gemini打造了新版的程式碼生成系統AlphaCode 2,比2年前的第一代改進很多,可以解
決兩倍的問題。
Gemini使用了Google自行開發的晶片TPU訓練而成,而且使中了v4和v5e版TPU。Google同
時宣布了新版TPU v5p,可用來加速Gemini模型的開發,供企業用來客製化訓練自己的LLM
模型。TPU v5p單一叢集可支援到8,960顆TPU,和TPU v4相比,能夠提供2倍FLOPS的算力
,記憶體頻寬也提高了3倍。
Google目前先在Bard中使用一個微調過的Gemini Pro版本,可提供推理和計畫的回答能力
。目前先釋出英語版,可再全球170個國家和地區使用,預計近期會支援更多語言。
Gemini另一個新特色是推出了一款可以在手機上執行的Nano版Gemini模型,Google表示,
甚至不需要連上網路,單靠手機上的TPU晶片也能運作,目前先支援Pixel系列手機,
Pixel 8 Pro手機會是第一款。不需要連上網路,也能在手機上用Gemini來整理會議錄音
檔的開會摘要內容。Nano版Gemini另外也會先用來強化Gboard的自動語音回覆輸入能力,
將率先支援WhatsApp的輸入,明年計畫支援更多App。
Google透露,目前Gemini Nano只能支援TPU晶片,未來希望能進一步跨大支援到其他手機
上的AI晶片,來擴大可支援的手機類型,但Google沒有透露時間表。
Bard從今天(12/6)已經開始使用Gemini Pro來提供回答,而Google預計從12月13日開始
,在GCP Vertex AI或Google AI Studio上,開放企業透過APi存取Gemini Pro模型。
Google目前正在進行Ultra版的信任和安全測試,包括採取外部紅隊演練,與使用RLHF進
行模型優化。目前將挑選特定企業用戶或開發者進行Ultra版試用,預計明年初可以正式
推出Ultra版,也會同步推出採用Ultra版的Bard進階版。不過,Google沒有透露Ultra版
更明確的釋出時間。
雖然Nano版可以離線在手機上執行,目前,企業只能透過API存取雲端Gemini模型來使用
,Google沒有透露,是否未來會提供落地在企業內部部署執行的Gemini版本。
5.完整新聞連結 (或短網址)不可用YAHOO、LINE、MSN等轉載媒體:
https://www.ithome.com.tw/news/160193
6.備註:
天網又更近了,不過台灣似乎還沒更新