GPT局限性 李飛飛-AI理解世界 20250101,《拐點》第四章探討了GPT的局限性與發展歷程,並結合李飛飛教授對AI理解世界的觀點,強調多模態技術的重要性。文章分析了AI技術的挑戰與突破方向,尤其是在語言模型效能提升放緩的背景下,提出改進架構與多模態結合的未來發展策略。

GPT局限性 李飛飛-AI理解世界 影片
GPT局限與未來

- 《拐點》第四章第一節
- 探討GPT發展與挑戰
- 分析成就與局限性
- 結合李飛飛觀點說明
- 強調AI技術進步影響
https://www.technice.com.tw/issues/ai/153512/
今天我們要來聊《拐點》第四章第一節,這一節主要在講GPT的局限性。我們會探討它的發展歷程、成就,以及現在遇到的挑戰。除此之外,我們還會對內容做一些延伸,讓大家更全面地理解這個話題。
這章節帶我們回顧了GPT的發展,從早期的語言模型訓練到現在能「抓住語言背後的世界」。我們會看到它的成就,像是學習語言的能力,但同時也要強調它在理解複雜語境和真實世界上的不足。
特別值得一提的是,李飛飛教授最近在《經濟學人》的專訪中指出,AI要往前發展,必須學會理解物理世界,這點其實也揭示了GPT的局限性——它對真實世界的感知和推理能力還不夠。
我們會把《拐點》的內容和李飛飛的觀點結合,來看看AI的機會與挑戰。2023年出版的這本書有些預測很準,但也有些想法因為技術的快速進步已經過時了。AI的進展真的是日新月異。
AI發展的歷史

- 回顧早期AI人工規則
- Transformer帶來突破
- 語料訓練助AI學習
- 舊式AI以輔助功能為主
- 語言模型實現智能轉變
https://www.readfog.com/a/1738469516625678336
早期的AI,其實沒有現在語言模型的智能。像是自動駕駛這類技術,基本上是人類寫出大量公式和規則,讓電腦依這些規則進行判斷,說到底就是「人工智慧」,全靠人類的條件設計。
後來進入了OpenAI的時代,AI開始有了革命性的突破,尤其是2017年的論文《Attention Is All You Need》。這篇論文提出的Transformer架構,成為現在GPT模型的基石。
Transformer的核心是透過語意與語意之間的關聯性進行預訓練,學習大量語料的規律。某個時間點,AI展現出了一種智能,似乎開始理解人類語言,甚至能和我們自然地交流。
現在AI主要分為兩種,一種是舊式的,像輔助駕駛這類規則式的AI;另一種是新式的語言模型AI,比如GPT,已經可以自己學習並生成內容,真正從工具變成了「智能體」。
GPT的湧現與進化

- GPT-3.0突破表面意義
- GPT-4.0理解諷刺隱喻
- GPT-o1加入思維鏈
- 多步推理應用搜尋客服
- AI推理能力持續提升
https://www.coursera.org/articles/history-of-ai
GPT真正展現智慧,大概是從GPT-3.0開始的。它達到了一個臨界點,不再只是解釋文字表面,而是能理解文字背後的深層意義。
隨著技術進步,到了GPT-3.5、GPT-4.0,甚至是現在的GPT-o1,它不僅能理解語言背後的意圖,還能讀懂諷刺、笑話,甚至隱喻的意思。例如,「小明的小狗小白上天當了天使」,在GPT-3.0時可能需要提示,但現在GPT可以馬上理解「上天使」的隱喻是死亡。
GPT-o1更進一步加入了「思維鏈」,它不僅回答問題,還會根據問題多想幾步。比如你問今天天氣如何,它可能除了回答溫度,還會推薦適合的活動。這種能力非常適合應用在搜尋和客服上。
從GPT-3.0到GPT-o1,我們看到AI湧現出更強的推理與應用能力,這讓它不再只是工具,而是一個有智能的系統。
AI目前的挑戰

- AI邊際效益遞減明顯
- DeepSeek提升有限
- 新增功能無突破進展
- 規模化路線已停滯
- 未來需架構改進
https://springsapps.com/knowledge/15-common-chat-gpt-limitations-and-how-to-overcome-them
《拐點》早在2023年底就提到,AI正面臨邊際效益遞減的問題,也就是投入越多資源,進步卻越來越小。這一點在現在尤其明顯,語言模型的規模化已經走到瓶頸。
像DeepSeek 671B模型,資料量是405B的1.6倍,但智能提升卻非常有限,只稍微聰明了一點,遠遠沒有達到預期。這顯示,光靠擴大模型規模已經無法帶來突破。
此外,新增的思維鏈和網路搜尋功能雖然改善了一些幻覺問題,但並沒有讓GPT變得真正更聰明。技術進展的速度明顯減緩,中國一些廠商甚至用更小的資源開發出便宜好用的語言模型,凸顯現有技術已經卡關。
未來的方向需要聚焦在改進架構或設計新的學習方式,而不是一味擴展規模。AI的發展雖然放緩,但這也意味著我們正接近下一次突破的關鍵點。
AI理解世界

- AI需理解物理世界
- 語言模型感知有限
- 多模態結合視覺語言
- 應用於醫療教育駕駛
- 理解世界是AGI關鍵
AI要如何突破這些限制?一個重要的方向就是「理解世界」。李飛飛教授在《經濟學人》的專訪中強調,AI如果要和人類更有效互動,並解決更複雜的問題,就必須對物理世界有深刻的理解。
目前的語言模型主要靠文字進行訓練,對物理環境的感知非常有限。這導致它在需要處理真實世界的問題時,無法提供足夠精確的回答。例如,語言模型能解釋一張圖片的表面內容,但無法真正理解這張圖片背後的故事或物理邏輯。
李教授提到,未來的AI研究需要整合多模態技術,包括視覺、機器學習和認知科學。讓AI不僅能「看見」,還能理解圖像背後的物理意義,甚至推理出人類的意圖。
這樣的突破,將為AI開啟更多可能性。例如,在醫療領域,AI需要理解人體結構和病理,幫助醫生做出更精準的診斷;在教育中,AI能透過圖像和語音分析學生的行為,提供更個性化的教學建議;在自動駕駛方面,AI則需要深刻理解環境的動態變化,確保駕駛安全。
總而言之,讓AI學會「理解世界」,將是走向AGI(通用人工智慧)的關鍵一步。雖然目前技術還不成熟,但這是一條不可避免的發展方向。
多模態AI的開始

- 訓練資料接近用盡
- DeepSeek規模效果有限
- 未來需聚焦多模態AI
- 現有模型難理解圖像
- AGI需理解物理規律
https://cloud.google.com/use-cases/multimodal-ai
現在2024年底,語言模型的訓練資料幾乎用盡,規模再大,提升也有限。舉例來說,DeepSeek 671B的模型資料量是405B的1.6倍,但智能提升卻非常有限,這也顯示規模化路線已經走到盡頭。
這印證了OpenAI CEO Altman的看法,未來不再依賴擴大模型,而是改進架構。李飛飛教授和楊立坤博士都提到,多模態AI是下一步的方向,要讓AI理解圖像世界,結合視覺和語言,進一步提升智能。
目前的GPT並不是真正的多模態模型,它能嘗試描述圖片內容,但無法真正理解圖像背後的物理法則。未來,像特斯拉這樣的企業正努力訓練AI理解現實世界的邏輯,讓AI在真實環境中發揮更大的作用。
只有當AI真正理解物理世界的運作規律,才能廣泛應用在人類生活中,從醫療、教育到自動駕駛,甚至更多領域,實現真正的突破。
2025年到現在
李飛飛教授跟楊立坤教授也都有提出
他們處理圖像世界訓練的方法
但是目前來說
都還沒有一個非常有效的方式
可以用真實世界的圖片
或真實世界的視覺方式來訓練AI
目前就卡在這部分
如果說AI能夠理解真實的物理世界的話
那AI就可以去判斷什麼是常理
什麼是不一樣的 什麼是例外
那就可以針對例外去做處理
那勢必就可以讓AI
真正的能夠運用到生活當中
而成為真正的多模態模型
這個是下一步發展的重點
那我們投資機會也勢必會
隱藏在這些發展當中
好了~那今天這一節的內容就到這裡
為什麼這一節要講這麼多古時候的事情呢
那是因為到了第四章第二節的時候
難度會突然間大提升
哇~一想到就興奮
這才是讀書讓人快樂的地方
那我們就下一節見~掰