具身智能 與 世界模型 20241217,解析《拐點》第三章第五節,探討具身智能和世界模型。具身智能強調身體與環境的互動,讓人類決策充滿複雜性和創造力。世界模型AI整合多種感測數據,提升學習和應對能力,但在情感和模糊訊息處理上仍有限。人類的情感和創造力無可取代。

具身智能 與 世界模型 影片
嗨我是亞瑟我有三高
今天要來講具身智能與世界模型
基本上這個就是萬維鋼老師寫的
拐點這本書裡面的第三章第五節
但是今天這一次分享的部分會比較多
而且會比較艱難一點
如果各位有興趣的話
請跟我一起往下看
AI的更進一步的下一步
難以理解的章節

- 說書快變成寫書
- AI發展變化迅速
- 成書一年多前
- 留下原書架構
- 補充新的內容與觀點
https://www.books.com.tw/products/CN11963950
坦白說,到了《拐點》第三章第五節,我真的覺得原本是要說書,結果它好像變成了在寫書。尤其最近這幾次我所提供的內容,其實已經比作者多很多了。
我想這應該是因為AI的變化速度實在太快了,而這本書又是寫於一年多以前,所以很多事情已經不一樣了。
但是沒關係,我們的脈絡還是在的。所以,我們就保留書裡面的架構和精神,再補充一些新的內容和觀點。
如果各位回去讀這本書時發現:咦,怎麼內容不太一樣?或者覺得我的講解和書裡面的內容有些不同,那是因為我們加了一些新的東西進來,讓新的和舊的摻在一起,做融合來解說。
具身智能

- Embodied Intelligence
- 透過身體與環境交互
- 感知、理解和決策
- 不僅依賴大腦
- 包括身體的直接參與
https://24h.pchome.com.tw/books/prod/DJBQ33-D900G2XU5
在《拐點》第三章第五節裡提到了具身智能(Embodied Intelligence)的概念,這指的是整個身體所產生的智能。
這個詞可以追溯到上一章節所提到的《門檻》一書中的相關內容。原則上,具身智能的意思就是指人類透過身體與環境的交互作用來感知世界,進而進行理解和決策。
人類的具身智能強調,身體與環境的互動影響了我們對世界的感知、情感的理解,以及各種判斷和決策。這並非僅僅依賴大腦而已,而是整個身體共同參與的結果。
舉例來說,我們的腸胃也參與了一些思考和判斷,比如說,當肚子餓的時候,我們可能會特別容易點太多的食物;而天氣寒冷時,則容易購買更多的儲備物資。
身體感知也會干擾我們的判斷。例如,當我們有錢的時候可能會比較容易亂花錢;而當身體疲憊時,我們則傾向於不想冒險。
這些身體反應會影響大腦的運作。同時,大腦也會影響身體,比如在心情煩躁時可能會頭痛或拉肚子;當心情緊繃時,身體可能會出現腫脹感,讓我們更想待在家裡休息,而不是出門運動。
總結來說,人類的智能並非只依賴大腦,還包含了身體的參與,這種完整的身體與大腦互動,構成了我們的具身智能。
人類決策的特點

- 身體感知影響判斷
- 複雜多樣的感知
- 個體經驗多樣性
- 實際接觸交流的特色
- 創造力渲染力來源
由於人類在做決策的時候,會受到身體感知的影響,因此人類的感知能力和判斷能力變得非常複雜和多樣。
我們不是僅僅依靠大腦來辨認世界,而是所有的感官也參與其中,這使得我們的判斷過程變得非常複雜,遠遠超越了AI模型那種單純的邏輯運算。
更重要的是,每個人那樣複雜的感知和判斷是一個持續累積的過程。假設對一個18歲的人來說,他已經透過身體的感測器「訓練」了自己18年的大腦。
長期累積下來的經驗,使得成人的感知和決策更加多樣化,也更加複雜。人類的判斷和決策不僅比AI更複雜,也更加難以預料。
此外,我們人類因為與其他人類的實際接觸與交流經驗,也會形成獨特的判斷特色。例如,當我們面對不同的人群或動物時,表現出來的智力和決策方式也會有所不同。
這些差異其實是人類創造力和渲染力的來源之一。這些複雜性與不確定性,一點一滴地融合成為我們所認知的人性。而這樣的人性,才是能夠創造出具有深刻創造力和渲染力內容的關鍵。
例如,人類創造的詩句能夠優美動人、引人入勝;人類寫的歌曲也能觸動人心。但AI就不同了,雖然AI可以寫詩、寫歌,但它缺乏人類經驗中那種創造力,集渲染力所帶來的感動。
文字AI的侷限

- 目前AI語言模型
- 語言學語意技術開始
- 單純由文字訓練而來
- 已經窮盡人類文字
- 智能進展達到瓶頸
我們再回來看文字AI,就會發現目前的AI語言模型其實是很有侷限性的。因為目前的AI模型是從語言學開始發展的,而語言學的基礎是語意技術。這些技術純粹是由單純的文字訓練而來,僅依賴大量的語料進行運算和學習。
相比之下,人腦的運作其實非常複雜且靈活,而令人沮喪的是,現在已經把人類創造出來的文字,幾乎全部都送進了大型語言模型的訓練中。
即便如此,我們發現,哪怕是目前最頂尖的語言模型,如405B參數的超大型語言模型,它的智力發展仍然不如人類。
它還是無法像我們一樣,對情境或複雜問題有真正靈活且全面的反應。這是因為文字AI本身只是我們人類感知能力的一小部分的模擬而已。
換句話說,目前的AI只是將人類感知能力中「文字」這一部分發展到了極致,但我們還有非常多其他的感知能力,例如情感、觸覺、溫度感知等等,這些是文字訓練的AI所無法觸及的。
這也說明了,文字AI的侷限性正是因為,它無法涵蓋我們人類完整的感知體驗。
世界模型AI

- Meta楊立坤
- 外部世界基礎模型
- 多元感測器數據
- 圖像/聲音/觸覺
- 形成世界基本認知
為了改善目前純文字,訓練AI所存在的侷限性,Meta的楊立坤博士,提出了一個新的研究方向。他認為,應該把所有外部世界的感知,與所有的資料都整合起來,訓練出一個對世界具有認知基礎的模型,也就是所謂的世界模型。
要訓練出這樣的世界模型,必須依賴多元感測器提供的數據,而這些數據越複雜越好。
目前的研究主要先從圖像開始,接著加入聲音,未來甚至計畫納入觸覺和味覺,以及其他的感官數據。這樣的數據融合,可以幫助AI形成對世界的基本認知。
換句話說,世界模型不再只依賴文字來進行訓練,它還要包括圖片、影片、聲音,以及其他所有能從感測器中獲取的資訊。這些多模態數據的融合,能夠讓AI對世界形成一個更完整的基礎認知。
世界模型的改變

- AI對物理有基本認知
- 像人類小孩一樣理解
- 有效學習新的事物
- 應對各種突發狀況
- 未知情況的推理
既然世界模型是透過,整合多種感測數據訓練出來的,我們可以假設,使用世界模型訓練出的AI,對整個物理世界會有一個基本的認知。
換句話說,這樣的AI就會像人類的小孩一樣,理解一些最基本的世界運作方式,例如最基本的物理法則、空間概念、速度感,甚至一些簡單的社會準則。
這樣的進步有什麼好處呢?首先,當世界模型的AI在學習新事物時,不需要像現在的AI,依賴大量數據並進行反覆練習。
傳統AI可能需要千次、甚至上億次的訓練,才能學會一個簡單的技能,但有了世界模型的基礎認知,AI學習新東西的效率會大大提升。就像小孩學倒茶水,只需要兩三次嘗試就能掌握。
再來是因為世界模型,讓AI對物理世界有基本的理解,當它遇到與常規不符的情況時,會自然地意識到需要謹慎或提防,並能迅速做出應對。
這也讓它對各種突發狀況的反應,變得更加自然且有效,而傳統的AI在遇到,從未見過的突發情況時,往往會陷入困境,無法處理。
更重要的是,世界模型的AI在面對未知的事物時,能像人類一樣,利用已知的知識,去推測未知的世界。
就像我們知道蘋果會往下掉,所以能推測出石頭也會往下掉。同樣的,世界模型的AI也能用這樣的推理方式,去理解和應對未知情況。
AI將進入的領域

- 文字已經攻陷
- 邏輯和數學智能
- 語言智能
- 空間智能
- 音樂智能
目前的AI模型已經完全攻陷了文字世界,這點應該已經沒有什麼爭議,大家也都可以認可。文字型AI已經能融會貫通文字世界的規則,處理文字相關的工作已經變得十分成熟。
未來,隨著世界模型的逐步完善,其他領域的智能,也勢必會被納入AI的能力範圍。
最先被影響的很可能是邏輯和數學。目前的文字AI透過反覆的訓練,加上邏輯和思維鏈的進步,在邏輯上已經提升很多,下一步很可能就會掌握這些能力。
再來是語言的智能。當世界模型越來越成熟時,AI不僅能理解語言的基本結構,還有可能掌握語氣、情緒,以及語言中隱藏的深層意圖。到那時,AI可能就能模仿我們的說話方式,並作出幾乎與人類相同的語言表達。
更進一步,空間智能和音樂智能,也會隨著世界模型的完善而逐步被攻陷。雖然這些可能還需要更長的時間,但以目前的發展趨勢來看,這些領域被AI徹底掌握,也只是時間問題。
邏輯、數學、語言、空間和音樂,這些領域都是AI未來即將進入並掌握的範疇。對人類來說,這些部分很可能已經無路可退了。與其在這些領域繼續投入過多的心力,不如轉向其他更具人類獨特性的方向。
未來AI的侷限

- 電腦缺乏身體
- 沒有器官物理知覺
- 無法體驗感情情緒
- 人類處理模糊訊息
- 不確定性/情感性
我們剛才討論了具身智能和世界模型,可以理解人類的智能來源,是多方面且非常複雜的。然而,隨著世界模型的不斷進化,AI正在逐步追趕我們的智能,但有一些領域,在未來AI暫時無法超越的,特別是在感官、智力和情感的部分。
原因在於AI本身是缺乏身體的。無論它的技術多麼先進,它仍然不像人類一樣擁有器官或感官,無法真正感受外界的物理特性。人類透過身體能體會到外界的複雜性,但AI無法擁有這樣的多樣感知。
更重要的是,AI因為不是人類,所以沒有情緒,也無法感知,外界體驗所帶來的情緒和感動。AI無法感受到早晨的美好,清晨的爽朗,或是自然景色對我們內心的震撼。
再者AI無法處理,充滿模糊性和情感性的訊息。例如,我們走進某個地方時,會有不舒服或愉快的直覺感,或者當某個人靠近時,我們心裡可能會感到開心。
與陌生人輕微的身體接觸,我們可能只會一笑置之;但若是心愛的人輕輕碰觸,卻能讓我們感受到,如觸電般的情感衝擊。這種不確定性與情感性,是AI短時間內無法模仿的。
因此這些由身體、情緒,和人類獨特決策模式,所帶來的智能差異,是人類在未來仍能保持優勢的領域,也是我們應該珍惜,並進一步發展的方向。
這些特質,正是我們在AI時代中,可以真正「慘電AI」的重要部分。這是屬於人類的優勢,值得我們好好守護並發揚。