Meta又開源AI模型,算盤打的是「AI元宇宙」!ImageBind如何帶來多感官體驗?
https://www.bnext.com.tw/article/75211
當各大科技公司在AI人工智慧的戰場上各顯身手,試圖占據AI市場的一席之地時,有個看
似沉寂許久的科技巨頭,看似把未來押在虛擬世界「元宇宙」而錯失了先機,卻正在迎頭
趕上,不斷推出、甚至開源自家的AI研究成果──那就是Meta。
Meta於5月9日宣布了一個新的開源AI研究項目,名為「ImageBind」,且不只可以生成文
字、或是圖片,還可以串聯起文本、聽覺、視覺數據、3D深度資訊、溫度、動作數據。這
可能將是虛擬世界「元宇宙」計畫的一大步,也代表未來AI的走向,將會是創造身歷其境
的多感官體驗。
雖然這還在研究階段,Meta近期也還稱不上高調,但也不斷公開自家的研究項目,與相較
之下越來越神秘的OpenAI和Google形成強烈對比。
人工智慧「多模型」型態,將是生成式AI的趨勢?
早先廣為人知的生成式AI如Midjourney、Stable Diffusion和DALL-E,都是在訓練階段時
就已經把文字和圖片「連接」在一起的系統,在訓練時,這些模型就會以文字敘述來尋找
視覺資料中的模式。目前其他生成聲音或是短片的生成式AI也是如此。
但Meta表示ImageBind模型連結的不只文字和圖片,還包括了溫度(紅外線影像)、3D深
度距離、還有用慣性測量裝置(inertial measuring unit,IMU,可在手機或智慧手錶中
追蹤螢幕轉向等活動)所取得的動作數據。
這個模型將預期的成果是: 模擬人的感知 ,用有限的數據來生成複雜的場景。如果未來
能夠搭配虛擬實境設備使用,ImageBind不僅可以生成感官效果,還可以在使用者所在的
站台或座椅環境生成動作或效果。例如:輸入「長途旅行」,ImageBind可能就可以讓你
置身於搖晃的甲板,讓你聽到海浪聲,並給你陣陣涼爽的海風。
Meta也在官方部落格指出,未來其他感覺數據也會添加到模型當中,例如觸覺、嗅覺和大
腦fMRI信號等。文章中也指出,這個研究讓AI生成模型「更接近人類在許多不同形式的資
訊當中,同步、整體且直接的學習。」
不過,這都還只是研究項目,目前都沒有實際的應用成果或消費者心得。不過,繼去年9
月Meta低調推出短片生成AI模型後,這個研究項目在未來,也可能會是Meta元宇宙大夢的
重要里程碑。
Meta早就是AI老手?大方開源AI研究,能搶先訂下標準?
儘管低調,人工智慧在Meta早就已經是旗下Facebook或Instagram貼文與短影音的幕後關
鍵。用戶在Instagram上看到的所有內容中,就約有40%是由AI推薦的,而Instagram和
Facebook兩個一起算的話,比率則是20%。在業務方面,Meta的主要業務──銷售廣告,
也是AI來操盤的。
Meta在AI領域的最大優勢之一,就是旗下的研究部門,許多專家認為,Meta團隊的競爭力
並不輸Google和OpenAI等同行。
雖然Facebook和Instagram大量使用AI,但Meta的應用程式都不允許人們創建新內容,如
文本或影像。外媒《Vox》指出,可能跟Meta長期被控「散播仇恨言論、錯誤訊息」的罵
名有關,Meta還不想倉促建立一個會產生更多有害或是不正確內容的工具。
其實,Meta已經嘗試過了,他們去年11月所發布、以學術論文進行訓練的實驗性AI工具「
Galactica」吐出了不符合事實的種族主義訊息,在三天內就被撤下了。
Meta同時也面臨硬體設備難以執行人工智慧系統的問題。去年9月,Meta內部發布的一份
備忘錄表示,該公司「在AI開發方面,工具、工作流程和製程方面存在重大差距」,並且
需要「在這方面進行大量投資」。
不過,Meta的人工智慧研究部門仍定期發布公開的AI研究論文(不包括社群媒體演算法的
AI)。其他AI公司,如Google和OpenAI因競爭而不那麼願意公開研究成果。
Meta執行長馬克.祖克柏就曾表示, 公開研究成果可以讓Meta率先制定AI產品開發的行
業標準,並讓外部開發者更好地融入Meta的生態系統 。今年2月,Meta的研究部門與研究
人員就開放LLaMA的大型語言模型給AI社群索取使用權限。
LLaMA的能力目前落後於OpenAI最新的GPT4模型以及Google的Bard,但開放資源仍然代表
著AI研究社區不須強大的電腦,就可以修改底層程式碼。但這也有專家認為,過於自由的
開放可能會遭到惡意使用。
====
用AI來做虛擬實境的感覺模擬是很不錯。
看來野心不小,各種感覺都想加進去。
真讓它成功了,以後搞虛擬實境遊戲就要用它的技術了。
但問題還是一樣,這些資訊要怎進入使用者的腦中?
現在可沒這種腦機連接技術,也不知道那時才會有。