具身智能與世界模型 20241217

具身智能與世界模型 20241217，解析《拐點》第三章第五節，探討具身智能和世界模型。具身智能強調身體與環境的互動，讓人類決策充滿複雜性和創造力。世界模型AI整合多種感測數據，提升學習和應對能力，但在情感和模糊訊息處理上仍有限。人類的情感和創造力無可取代。

Table of Contents

具身智能與世界模型影片

嗨我是亞瑟我有三高
今天要來講具身智能與世界模型
基本上這個就是萬維鋼老師寫的
拐點這本書裡面的第三章第五節
但是今天這一次分享的部分會比較多
而且會比較艱難一點
如果各位有興趣的話
請跟我一起往下看
AI的更進一步的下一步

難以理解的章節

說書快變成寫書
AI發展變化迅速
成書一年多前
留下原書架構
補充新的內容與觀點

https://www.books.com.tw/products/CN11963950

坦白說，到了《拐點》第三章第五節，我真的覺得原本是要說書，結果它好像變成了在寫書。尤其最近這幾次我所提供的內容，其實已經比作者多很多了。

我想這應該是因為AI的變化速度實在太快了，而這本書又是寫於一年多以前，所以很多事情已經不一樣了。

但是沒關係，我們的脈絡還是在的。所以，我們就保留書裡面的架構和精神，再補充一些新的內容和觀點。

如果各位回去讀這本書時發現：咦，怎麼內容不太一樣？或者覺得我的講解和書裡面的內容有些不同，那是因為我們加了一些新的東西進來，讓新的和舊的摻在一起，做融合來解說。

具身智能

Embodied Intelligence
透過身體與環境交互
感知、理解和決策
不僅依賴大腦
包括身體的直接參與

https://24h.pchome.com.tw/books/prod/DJBQ33-D900G2XU5

在《拐點》第三章第五節裡提到了具身智能（Embodied Intelligence）的概念，這指的是整個身體所產生的智能。

這個詞可以追溯到上一章節所提到的《門檻》一書中的相關內容。原則上，具身智能的意思就是指人類透過身體與環境的交互作用來感知世界，進而進行理解和決策。

人類的具身智能強調，身體與環境的互動影響了我們對世界的感知、情感的理解，以及各種判斷和決策。這並非僅僅依賴大腦而已，而是整個身體共同參與的結果。

舉例來說，我們的腸胃也參與了一些思考和判斷，比如說，當肚子餓的時候，我們可能會特別容易點太多的食物；而天氣寒冷時，則容易購買更多的儲備物資。

身體感知也會干擾我們的判斷。例如，當我們有錢的時候可能會比較容易亂花錢；而當身體疲憊時，我們則傾向於不想冒險。

這些身體反應會影響大腦的運作。同時，大腦也會影響身體，比如在心情煩躁時可能會頭痛或拉肚子；當心情緊繃時，身體可能會出現腫脹感，讓我們更想待在家裡休息，而不是出門運動。

總結來說，人類的智能並非只依賴大腦，還包含了身體的參與，這種完整的身體與大腦互動，構成了我們的具身智能。

人類決策的特點

身體感知影響判斷
複雜多樣的感知
個體經驗多樣性
實際接觸交流的特色
創造力渲染力來源

由於人類在做決策的時候，會受到身體感知的影響，因此人類的感知能力和判斷能力變得非常複雜和多樣。

我們不是僅僅依靠大腦來辨認世界，而是所有的感官也參與其中，這使得我們的判斷過程變得非常複雜，遠遠超越了AI模型那種單純的邏輯運算。

更重要的是，每個人那樣複雜的感知和判斷是一個持續累積的過程。假設對一個18歲的人來說，他已經透過身體的感測器「訓練」了自己18年的大腦。

長期累積下來的經驗，使得成人的感知和決策更加多樣化，也更加複雜。人類的判斷和決策不僅比AI更複雜，也更加難以預料。

此外，我們人類因為與其他人類的實際接觸與交流經驗，也會形成獨特的判斷特色。例如，當我們面對不同的人群或動物時，表現出來的智力和決策方式也會有所不同。

這些差異其實是人類創造力和渲染力的來源之一。這些複雜性與不確定性，一點一滴地融合成為我們所認知的人性。而這樣的人性，才是能夠創造出具有深刻創造力和渲染力內容的關鍵。

例如，人類創造的詩句能夠優美動人、引人入勝；人類寫的歌曲也能觸動人心。但AI就不同了，雖然AI可以寫詩、寫歌，但它缺乏人類經驗中那種創造力，集渲染力所帶來的感動。

文字AI的侷限

目前AI語言模型
語言學語意技術開始
單純由文字訓練而來
已經窮盡人類文字
智能進展達到瓶頸

我們再回來看文字AI，就會發現目前的AI語言模型其實是很有侷限性的。因為目前的AI模型是從語言學開始發展的，而語言學的基礎是語意技術。這些技術純粹是由單純的文字訓練而來，僅依賴大量的語料進行運算和學習。

相比之下，人腦的運作其實非常複雜且靈活，而令人沮喪的是，現在已經把人類創造出來的文字，幾乎全部都送進了大型語言模型的訓練中。

即便如此，我們發現，哪怕是目前最頂尖的語言模型，如405B參數的超大型語言模型，它的智力發展仍然不如人類。

它還是無法像我們一樣，對情境或複雜問題有真正靈活且全面的反應。這是因為文字AI本身只是我們人類感知能力的一小部分的模擬而已。

換句話說，目前的AI只是將人類感知能力中「文字」這一部分發展到了極致，但我們還有非常多其他的感知能力，例如情感、觸覺、溫度感知等等，這些是文字訓練的AI所無法觸及的。

這也說明了，文字AI的侷限性正是因為，它無法涵蓋我們人類完整的感知體驗。

世界模型AI

Meta楊立坤
外部世界基礎模型
多元感測器數據
圖像/聲音/觸覺
形成世界基本認知

為了改善目前純文字，訓練AI所存在的侷限性，Meta的楊立坤博士，提出了一個新的研究方向。他認為，應該把所有外部世界的感知，與所有的資料都整合起來，訓練出一個對世界具有認知基礎的模型，也就是所謂的世界模型。

要訓練出這樣的世界模型，必須依賴多元感測器提供的數據，而這些數據越複雜越好。

目前的研究主要先從圖像開始，接著加入聲音，未來甚至計畫納入觸覺和味覺，以及其他的感官數據。這樣的數據融合，可以幫助AI形成對世界的基本認知。

換句話說，世界模型不再只依賴文字來進行訓練，它還要包括圖片、影片、聲音，以及其他所有能從感測器中獲取的資訊。這些多模態數據的融合，能夠讓AI對世界形成一個更完整的基礎認知。

世界模型的改變

AI對物理有基本認知
像人類小孩一樣理解
有效學習新的事物
應對各種突發狀況
未知情況的推理

既然世界模型是透過，整合多種感測數據訓練出來的，我們可以假設，使用世界模型訓練出的AI，對整個物理世界會有一個基本的認知。

換句話說，這樣的AI就會像人類的小孩一樣，理解一些最基本的世界運作方式，例如最基本的物理法則、空間概念、速度感，甚至一些簡單的社會準則。

這樣的進步有什麼好處呢？首先，當世界模型的AI在學習新事物時，不需要像現在的AI，依賴大量數據並進行反覆練習。

傳統AI可能需要千次、甚至上億次的訓練，才能學會一個簡單的技能，但有了世界模型的基礎認知，AI學習新東西的效率會大大提升。就像小孩學倒茶水，只需要兩三次嘗試就能掌握。

再來是因為世界模型，讓AI對物理世界有基本的理解，當它遇到與常規不符的情況時，會自然地意識到需要謹慎或提防，並能迅速做出應對。

這也讓它對各種突發狀況的反應，變得更加自然且有效，而傳統的AI在遇到，從未見過的突發情況時，往往會陷入困境，無法處理。

更重要的是，世界模型的AI在面對未知的事物時，能像人類一樣，利用已知的知識，去推測未知的世界。

就像我們知道蘋果會往下掉，所以能推測出石頭也會往下掉。同樣的，世界模型的AI也能用這樣的推理方式，去理解和應對未知情況。

AI將進入的領域

文字已經攻陷
邏輯和數學智能
語言智能
空間智能
音樂智能

目前的AI模型已經完全攻陷了文字世界，這點應該已經沒有什麼爭議，大家也都可以認可。文字型AI已經能融會貫通文字世界的規則，處理文字相關的工作已經變得十分成熟。

未來，隨著世界模型的逐步完善，其他領域的智能，也勢必會被納入AI的能力範圍。

最先被影響的很可能是邏輯和數學。目前的文字AI透過反覆的訓練，加上邏輯和思維鏈的進步，在邏輯上已經提升很多，下一步很可能就會掌握這些能力。

再來是語言的智能。當世界模型越來越成熟時，AI不僅能理解語言的基本結構，還有可能掌握語氣、情緒，以及語言中隱藏的深層意圖。到那時，AI可能就能模仿我們的說話方式，並作出幾乎與人類相同的語言表達。

更進一步，空間智能和音樂智能，也會隨著世界模型的完善而逐步被攻陷。雖然這些可能還需要更長的時間，但以目前的發展趨勢來看，這些領域被AI徹底掌握，也只是時間問題。

邏輯、數學、語言、空間和音樂，這些領域都是AI未來即將進入並掌握的範疇。對人類來說，這些部分很可能已經無路可退了。與其在這些領域繼續投入過多的心力，不如轉向其他更具人類獨特性的方向。

未來AI的侷限

電腦缺乏身體
沒有器官物理知覺
無法體驗感情情緒
人類處理模糊訊息
不確定性/情感性

我們剛才討論了具身智能和世界模型，可以理解人類的智能來源，是多方面且非常複雜的。然而，隨著世界模型的不斷進化，AI正在逐步追趕我們的智能，但有一些領域，在未來AI暫時無法超越的，特別是在感官、智力和情感的部分。

原因在於AI本身是缺乏身體的。無論它的技術多麼先進，它仍然不像人類一樣擁有器官或感官，無法真正感受外界的物理特性。人類透過身體能體會到外界的複雜性，但AI無法擁有這樣的多樣感知。

更重要的是，AI因為不是人類，所以沒有情緒，也無法感知，外界體驗所帶來的情緒和感動。AI無法感受到早晨的美好，清晨的爽朗，或是自然景色對我們內心的震撼。

再者AI無法處理，充滿模糊性和情感性的訊息。例如，我們走進某個地方時，會有不舒服或愉快的直覺感，或者當某個人靠近時，我們心裡可能會感到開心。

與陌生人輕微的身體接觸，我們可能只會一笑置之；但若是心愛的人輕輕碰觸，卻能讓我們感受到，如觸電般的情感衝擊。這種不確定性與情感性，是AI短時間內無法模仿的。

因此這些由身體、情緒，和人類獨特決策模式，所帶來的智能差異，是人類在未來仍能保持優勢的領域，也是我們應該珍惜，並進一步發展的方向。

這些特質，正是我們在AI時代中，可以真正「慘電AI」的重要部分。這是屬於人類的優勢，值得我們好好守護並發揚。

具身智能 與 世界模型 影片