ChatGPT 12天發表語言模型卡關時代 20241222

ChatGPT 12天發表語言模型卡關時代 20241222，ChatGPT發表會展現了多項功能更新，但反映出語言模型正面臨卡關時代。文字AI雖然在生成與推理上能力強大，但仍停留於表面理解。更新方向偏重實用性。未來如何突破瓶頸、真正理解跨領域資訊成為關鍵。

Table of Contents

ChatGPT 12天發表語言模型卡關時代影片

嗨我是亞瑟我有三高
今天聊ChatGPT十二天的發表會
而我副標題是語言模型的卡關時代
是的其實是小小吐槽一下這次發表會
有興趣的請跟我往下看

文字AI的瓶頸

文字AI擅長生成缺乏理解
跨領域應用場景限制明顯
多模態成為突破方向
目前多模態仍屬表面拼湊
AI尚未真正理解圖片影片

https://uanalyze.com.tw/articles/185258047

今天其實想要藉由OpenAI的發表會
來談談文字語言模型的瓶頸
文字AI它的能力是非常強的
例如說生成文章
可以翻譯、可以摘要
甚至還會一點邏輯跟推理
這東西大家都很熟悉
但是問題是
它其實還停留在非常表面理解的狀態

當我們給AI一張圖片
他只能基本去描繪出一些大概的東西
例如說他會說這是一棵樹
但如果說你要問他一些更深的問題
例如要去評估這棵樹有多高
有多少歷史
他就完全無法理解

最近AI圈都在談多模態模型
這確實是目前可以去突破的方向
但是現在
現在多模態技術還不成熟
現在的應用方式
多半都是使用堆疊功能去疊上去的
例如說像是把圖片的功能
跟文字的功能疊在一起
但AI其實並沒有真正去理解
它們的內在邏輯

就好比說是他雖然好像懂了
可實際上他並沒有完全的理解
這個東西是什麼東西
圖片中的內容是什麼
所以語言模型的瓶頸
就是如何從表面的功能堆疊
而走向真正的跨領域整合
但這部分還在卡關當中
從這次OpenAI的12天發表會
當中就可以看出端倪

ChatGPT的12天

性能提升但感知有限
多模態輸入成為新亮點
微調計劃助打造模型
專注實用性非突破性
聚焦應用於專業需求

https://rd.coach/openai-12-days/

接著我們來聊一下
這個ChatGPT這次12天的發表會
這次更新的方向其實蠻明確的
比較像是補足一些過去功能的不足
但是但是很明顯的事情是
沒有什麼突破性的
更改一些語言模型能力
這跟過去每一次發表會
都讓人耳目一新的方式
其實不太一樣的
所以這次他雖然是性能提升
但是AI模型的感知能力是有極限的

這次當然會打出一些多模態的輸入
成為一個新的亮點
例如說你可以跟他有更多的對話
可以給他圖片或是可以視訊
但說句實話
他還是以圖片為主去猜是什麼東西
並不是真的了解
openai當然有一些新的
跟企業中的合作
例如說他可以讓企業
做一些更深層的回調
可以打造自己的AI
這是好棒棒
可是這個我也無法理解
只能夠講完就好

這次在我自己看起來
反而是更注重功能的實用性
而不是突破
他把更多的功能整合在一起
或加進來讓這個GBT變得更好用
那麼可以算是應用層面
變廣變深變好用
更專注於專業的需求
也就是想要對我這種人割韭菜

o1 正式版和 ChatGPT Pro 上線，性能提升。
微調計劃助用戶打造專家模型。
Sora 工具推出，生成高畫質短視頻。
Canvas 支持 Python 即時編輯。
整合 Siri，增強智能功能。
語音模式支持趣味視頻聊天。
Projects 功能管理文件與對話。
搜索免費，新增地圖互動。
o1 API 強化開發工具。
10.開通語音通話服務。
11.應用程序集成功能升級。
12.o3 模型性能超越人類。

螢幕上面可以看到
這是這12天所有內容
那麼接下來我們透過我自己的喜好
挑幾個我覺得很重要的出來講

ChatGPT PRO

Pro提供高級語音功能
支援多模態輸入更實用
訂閱費用針對專業用戶
功能設計強調專業應用
價格高昂大眾難以接受

https://www.thenewslens.com/article/246117

再來我們談的是ChatGPT Pro
這次是大亮點之一
這個版本也推出了許多進階功能
像是更進階的語音輸入
還可以結合多模態應用
可以讓場景變得更靈活
舉例來說
你可以對GPT用語音下令的同時
還可以給他文字圖片甚至更他影像
這種整合起來的東西
當然對於專業人的需求來說
會非常的有用

但是可怕的是Pro的功能
月費一個月美金200塊
這對於一般的使用者來說是非常高的
這部分對一般使用者而言是偏高的
可是對企業來說也許是OK
而且一直有傳聞
之前一個月20塊openai是賠錢的
所以也許他要從這200塊把錢賺回來

我自己最近就覺得
一般一個月付20塊那種用戶
他的AI變笨了
不僅是回答
雖然有時候會亂回答
搜尋也會亂搜尋
甚至文章比較長一點之後
後半段的文章文字會隨便亂回答

我自己的想法是
不知道是不是openai為了推Pro
想要大家付200塊
所以把20塊的AI變笨了
如果是的話那麼
你對你厲害你厲害
你很可能會賺到我的錢~好棒

Sora影片模型

生成短視頻但理解有限
技術基於現有圖片功能
適用短影片創作者需求
影片生成仍停留表層拼湊
距離真正理解影片仍遙遠

https://www.gvm.com.tw/article/117727

再來我們談到第三天發表的sora工具
它是一個能夠生成高畫質
短影音的一個功能而且還支援1080P
哇~好棒棒
最長可以有20秒
那它對於短語音的創作者來說
應該會很實用
其實對於我而言應該也OK
但是因為點數太貴了
如果真的要用的話一下要用完了

我自己試試看之後
發現我覺得這工具
目前是停留在假裝懂影片的階段
他的基礎模式是你先給文字
然後再生成圖片
生成圖片之後
他讓圖片加一些動畫效果
讓你看起來好像處理這些影片

但實際上他並不是真的理解影片中
每一個物件的相關的動作
或相關的情境或意義
他只是把這些素材拼接起來
想辦法讓他合理一點
仔細看你會看到很多不合理的部分

所以我覺得這離實用真的可以用
還有一段很長遠的路要走
因為這時候的AI
並不是真的能夠完全理解
一張圖片裡面所有的物件的意義
甚至他還是不能完全理解
影片中的所有意義
這部分可能要超越語言模型
而進到多模態模型之後才能解決

Canvas/Projects

Canvas支援Python運行
Projects提升團隊管理效率
偏向補強工具非技術突破
適合專業開發與協作場景
更完整但非核心能力改變

https://technews.tw/2024/12/16/12-days-of-openai-day-7-projects-in-chatgpt/

再來我們來看看canvas
跟projects這兩個功能
這兩個功能比較像是
對於生產力的補強
這次發表會中特別提到canvas
支援Python的即時運行跟編輯
對寫程師來說~一個字非常棒
可是我不懂所以跳過呵呵

在project的話
它是一個文件管理的對話
的一個位置一個工具
它可以讓你去整理檔案
追蹤過往的對話或指令
甚至是設定自動化
讓你的團隊可以執行
一個大的一個專案
而不必重新給答案給指令

但說句實話其實這兩個功能
都不是技術上的突破
這些東西其實原本就已經存在
在GBT的一般功能裡面
你只要給指示給夠它就會跑出來
所以我覺得它比較像是
讓工具變得更好用
而不是AI本身變聰明的

開放搜尋功能

搜索功能免費加強實用性
地圖互動提升資訊操作便利
功能增加但非核心能力提升
擴展使用場景非技術進步
更像工具整合非突破創新

https://arthur3highs.com/2258

最後我想特別提的是搜尋功能的免費
好這個更新的確是讓
GBT的實用性更進了一步
而且他據說還加入了地圖的互動功能
現在你可以直接用它去查路線
找附近的商店
對於日常生活來說
對於問問題來說真的非常方便
但是我自己還沒試過地圖的功能

但是我覺得目前這個功能
比較像是語言模式的AI
和搜尋引擎整合得更好
而不是AI本身能力的進步
說穿了他就是拿搜尋引擎的結果
去修正語言模型的缺陷
更甚至可能還拿網友的反應
去修正他對於搜尋引擎的一個調整
所以我覺得這是讓ChatGPT更好用
但這不代表他真的變聰明了

我前面拍過一次影片
寫過文章專門為這個題過
連結放下面
有興趣的可以點一下

Google的反擊

Gemini 2.0多模態應用
NotebookLM聚焦知識
Whisk強化內容創作
Google正面競爭OpenAI
拼湊與理解成技術核心

https://agirls.aotter.net/post/63766

接下來我要談Google的反擊
當然了openAI進步絕對不是沒有對手的
Google其實本來就
放在那裡等著等你上鉤
我覺得Google有時候更聰明一點
他不想花這麼多錢
不想浪費那麼多資源
再給那些玩家大眾去做嘗試
他比較像是他自己默默研究
自己想辦法把成本降到最低
試試看再出手

例如說最近有推出它的Gemini2.0
它就是一個多模態的AI模型
它能夠處理文字圖片影像甚至程式碼
號稱~號稱~號稱
當然他們還有
已經很好用的NotebookLM
還有最近新推出的Whisk功能
這個部分更專注於知識管理
以及圖片影片的內容創作
基本上就是對標OpenAI
直接對它而來

不管是OpenAI還是Google
他目前的多模態技術
都還停留在拼湊的階段
也就是說不管是OpenAI還是Google
他們都還沒有真正解決AI
如何跨領域去理解不同世界狀況

目前的AI模型還是屬於文字模型
它還不是真正能夠理解圖片
真正能夠理解影片
只是目前可以想辦法生出來圖片
跟生出來影片而已
他就是用文字導圖片
圖片導影片
只是Google好像做的
比OpenAI好一點點而已

語言模型卡關

更新功能非技術突破
多模態加強數據理解力
語言模型遇瓶頸
暫時卡關亦是技術突破
AI發展跨領域理解能力

https://www.technice.com.tw/opinion/150771/

最後我們結語一下
我自己下的標題就是
語言模型的卡關時代開始了
像這次的是OpenAI的12天發表會
我們就會看到
它是比較OpenAI GBT功能的優化
而不是核心能力的突破
沒有太多進展的東西
當然了這也不是壞事
因為卡關了
就代表它是下一個技術突破的前兆
而且卡關也不代表就不會進步
卡關之後我們可能會
對於語言模型的這種AI架構
進行更多的調整進行更多的優化
加入更多的應用

像我自己就覺得
既然AI已經可以知道我在講什麼話
可以把它轉成文字
那為什麼不能直接把我剪片
他根本不用理解我口述稿內容
他只要能夠知道我在講什麼話弄成中文
那他就可以來幫我剪片
這功能為什麼不給他推出來
其實也不用什麼了不起的技術突破
只是應用突破而已

但反觀未來AI的發展
一定是採取多模態的一個方向走的
更重要的事情是
AI能不能理解圖片
能不能理解真實世界影片
這些跨領域的知識
而不是用表面的訊息去做拼湊
那AI是否走到盡頭了呢?
哦~沒有~還早

舉例來說一張圖片就有好MB
那好幾MB基本上
就已經超過一本書的文字量了
也就是說未來AI如果真的
想要進入影像的訓練的話
那對於服務器的需求
對儲存的需求
對於網路的需求
將會是爆炸性的成長
所以AI還沒到底
還久的嘞~還早的嘞
對硬體的需求
對於台灣股市的成長
還有非常大的動力

那今天就談到這
如果你對這次的功能發表
會有什麼意見
或者有什麼想討論的
都可以在下面留言
那我們禮拜一再見啦拜

ChatGPT 12天發表 語言模型卡關時代 影片