AI語言模型 架構 預訓練 微調 對齊 RAG 檢索式生成 聯網搜尋,這支影片完整拆解語言模型的訓練流程,從架構設計、預訓練、微調到對齊,再到RAG檢索與即時查詢,解釋AI模型如何一步步變得更聰明,並結合2025年的最新發展趨勢。

AI語言模型 架構 預訓練 微調 對齊 RAG 搜尋 影片
這支影片我們要來完整拆解
語言模型的訓練流程
從架構設計、預訓練、微調到對齊
再到RAG、再到即時查詢
一步一步解釋AI模型
如何變得更聰明的
我是亞瑟我有三高
每週一到每個禮拜五
我都會日更這個頻道
分享每天學到的點點滴滴
那今天我們就來啃一點比較硬的東西
AI語言模型一路上的進展
語言模型煉丹術

拐點第六章第一節內容
從GPT講起的煉丹學
多模態模型已經上場
從堆資料到精選智慧
語言模型的發展轉折
這支影片我們要來講《拐點》第六章第一節,標題是「煉丹:大語言模型怎麼煉製的」。坦白說我蠻訝異萬維鋼老師,會把這一節放在這麼後面來講,我應該會放在本書一開始。
這本書是在 2024 年出版的,當時的主流做法是拼資料、拼參數,模型越大越厲害。但到了現在,小模型像 Gemma 3、QWQ,參數不多表現卻很強,讓大家重新思考,「夠用就好」是不是更實際。
另外,多模態模型也上場了,不只是看文字,還能辨識圖片、聲音,甚至修圖、畫圖,功能越來越完整。像 ChatGPT-4o 就展現了驚人的修圖能力,我們昨天那集也有提到。
所以我認為,現在我們正站在一個轉折點上,從過去拼資料,轉向拼理解力,從語言模型走向多模態整合。
而這一章講的四大步驟:架構、預訓練、微調、對齊,到今天都還是基礎流程,接下來我們就一步一步來講。
架構-怎麼選

- 模型架構決定大腦形式
- Transformer理解上下文
- Diffusion還原圖片內容
- GPT4o生圖採自回歸機制
- 架構選擇依需求而定
https://ithelp.ithome.com.tw/articles/10346968
建構語言模型的第一步叫做「架構」,也就是模型的大腦長什麼樣子。最經典的是 Transformer 架構,像 ChatGPT 或大多數語言模型都是這樣。它的特點是用 Self-Attention,也就是自注意力機制,分析一整段語意中所有詞的關聯,抓出連結,這才有辦法理解上下文,寫文章、寫程式。
另一種架構叫做 Diffusion,主要用在圖片生成,它是在一堆雜訊中還原出清晰的圖片,Stable Diffusion 就是代表。OpenAI 推出的 Sora 模型就是把 Diffusion 跟 Transformer 結合,可以做到文字轉影片。
不過錄影的當下,ChatGPT-4o 已經可以畫圖、理解圖片,它背後用的是多專家混合架構(MoE),其中畫圖這部分,很可能採用的是自回歸架構(autoregressive),搭配 Transformer,一步一步從上到下、從左到右畫出來,效果很自然。
2024年當時年,大家比的是誰的參數多誰就強,但現在像 Gemma 3 用 27B ,也能跑出很聰明的結果。所以這段最後的重點是:沒有一個理論,能告訴你哪個架構最好,一切都要看當下的需求和技術。
預訓練-餵語料

- 預測字是模型學習核心
- 語料成本高搶者為王
- 預訓練靠算力不是人力
- 模型可搜尋補足資料
- 資料精準提升模型效率
https://huggingface.co/learn/nlp-course/zh-TW/chapter7/6
AI 模型的第二步叫做「預訓練」,也就是把資料餵進去,讓模型學習。語言模型的核心原理其實不複雜,就是「預測下一個字」。雖然聽起來很簡單,卻是整個模型運作的基礎。它透過大量語料去猜測下一個字,一邊猜、一邊學。
2024 年時最大的挑戰是語料太貴,像《紐約時報》就控告 OpenAI,Reddit 把資料賣給 Google,一年收六千萬美元,甚至 Meta 還被爆出用盜版書籍當訓練資料。那時候的邏輯就是:誰掌握語料,誰就有優勢。
預訓練這一步主要拼的是算力,不太需要人力。OpenAI 在做 GPT 的預訓練時,只動員十幾個人,真正的核心資源是大量 GPU。這場比的其實是算力的軍備競賽。
到了 2025 年,語言模型已經可以上網搜尋,來彌補資料不足。這代表預訓練不再只是「資料越多越好」,而是「資料必須夠準確」。
現在的趨勢是:資料選得越精準,模型就能用更少的參數、達到更高的智力。我們在做本地端資料庫、RAG 檢索式生成的時候,也是一樣,要剔除沒用的內容,讓語料越乾淨越好,這樣模型才跑得快、回答得準。
微調-模型說人話

- 微調讓模型更像人說話
- 靠範例教學提升回應品質
- 人工標註是最辛苦階段
- GPT可協助產生訓練資料
- 懂得類比舉一反三應用
https://www.appendata.com/blogs/fine-tuning
語言模型光是會預測字還不能直接用。你問它問題,它只是逐字去猜,很容易講出一段不自然、像機器講的話。所以第三步就是「微調」,讓模型學會怎麼說出像人的話。
微調的做法,就是給模型一些範例,教它怎麼回答才算好。
比如你問它「誰是歐巴馬」,原本它可能只會回答「第44任總統」,但經過微調後,它會補充說「出生夏威夷、具有肯亞血統」,甚至講出更多背景,讓回答變得有層次、有溫度。
這一步最辛苦,需要大量工程師一題一題人工標註,設計題目也要夠廣、邏輯夠清楚。雖然現在可以用 GPT ,輔助自動生成範例,加快訓練效率,但整體來說,這還是最花人力的環節。
不過好消息是,很多問題只要訓練一次就夠。你教會它回答「歐巴馬是誰」,它就能自己套用這類方式,來回答「蔡英文是誰」、「愛迪生是誰」。
這就是語言模型厲害的地方,它懂得類比、舉一反三,把知識轉成活用。
對齊-價值觀

- 對齊是語言模型價值選擇
- RLHF回饋修正回應風格
- 看臉色是訓練社會語感
- 多數與少數如何公平呈現
- 中國模型價值觀引發討論
https://www.microsoft.com/en-us/research/articles/value-compass/
模型會說人話還不夠,它還要懂得「說對的話」。這一步叫做「對齊」(Alignment),搭配的技術是 RLHF,也就是人類反饋強化學習。簡單講,就是讓模型學會說出讓人滿意、不惹怒人的內容。
你每次在用 GPT 按「有幫助」、「沒幫助」,其實都在教它哪種回答比較好。久而久之,模型就會根據人類的反應,調整它的回答方式,這就是它學會「看臉色」的過程。
但問題是:什麼叫對齊?跟誰對齊?這其實是一種價值觀的選擇。不同的國家、文化、社會,標準本來就不同。
比如社會上九成人認同 A,一成認同 B,那模型要不要把 A 和 B 都講出來?如果兩個都講,可能讓少數聲音看起來像主流;但如果只講 A,又可能會被批評壓抑了多元觀點。
所以說『對齊』不只是技術調整,更像是一種社會訓練。它其實是在教模型什麼話能說、怎麼說不會出事。
這也正是我們目前討論 AI 的立場、意識形態差異最根本的核心。像中國的 DeepSeek 模型,很多回應就跟自由社會的價值觀不同,這條界線怎麼畫,怎樣才算中立,是當前我們最該關注的重點。
RAG-企業戰場

- RAG查資料再生成回答
- 資料外掛可更新易管理
- 台灣企業廣泛導入實作
- 比微調簡單更省成本
- AI落地應用的現實解法
https://blog.infuseai.io/rag-retrieval-augmented-generation-introduction-a5854cb6393e
前面幾步只是把模型訓練好,但訓練完之後,怎麼讓它學到新的知識?2024 年開始有一種主流解法叫做 RAG,全名是 Retrieval-Augmented Generation,簡單說就是「先查資料庫資料、再生成回答」。
做法是把公司的知識、文件、資料,轉成向量資料庫,也就是用語意的方式儲存資料。當模型收到提問時,不是憑空猜,而是先去資料庫找出相關內容,理解之後再回答。
這種方式的好處是:資料是外掛的、可以隨時更新,也比較容易管理,還能保有隱私。
到了 2025 年成為企業主流,前幾天去參觀 AI 博覽會,發現七八成的企業都在做 RAG 系統。有些接 GPT 的 API,有些是用本地的開源模型,但共通點就是:整合自己的資料庫,打造真正能落地的 AI。
雖然這不像預訓練那樣,把知識內化進模型裡,不過微調模型工程非常浩大,但 RAG 的優勢是簡單、實用、成本低。這種方式目前已經成為,企業導入 AI 最可行、最務實的一條路。
聯網-即時查詢

- 早期聯網效果不理想
- 主流模型具即時搜尋
- 搜尋等於即時學習
- AI搜尋仍可能出錯
- 讀PDF即時理解內容
https://www.phppan.com/2025/02/deepseek-r1-web-search-rag
ChatGPT 在《拐點》這本書出版的時候,其實就已經可以透過外掛,做一些有限的聯網搜尋了,不過當時效果真的很差,速度慢、內容不準確,體驗也不穩定。
到了 2025 年此刻,像 ChatGPT、Perplexity、DeepSeek 這些主流模型,早就具備即時查資料的能力。他們會先上網搜尋,再把查到的內容理解後,整理出一個新的回答。這種方式已經不只是搜尋,更像是一種即時學習。
現在幾個線上的 AI 模型,不但可以查詢最新資訊,還能主動去深挖資料,甚至幫你寫出完整的報告。
但要提醒一下,這些 AI 搜尋還是有可能出錯,我之前寫過一篇文章,專門分析這件事。不過既然我在本地端,都能做出幾乎零錯誤的搜尋功能,相信這些大公司應該也會解決這個問題的。
還有一種做法,就是你直接把一篇 PDF、一份報告,甚至整本書丟進 AI 對話框,它會先理解內容,再根據內容回答問題。這對我來說,已經是日常工作的一部分了。
這也說明了一件事:模型不再只靠記憶資料庫回答,而是可以根據新資料做即時學習,參數數量早就不是決定一切的關鍵了。
智能夠用就好

- 模型訓練四步仍主流
- RAG與搜尋讓模型進化
- 小模型已可打敗大模型
- 多模態模型正式上場
- AI正從文字走向現實
https://money.udn.com/money/story/11162/8591507
語言模型的初始訓練分四步:架構、預訓練、微調、對齊,這在今天仍然是主流。不過,為了讓模型能持續進步、學會新知,後來又加入了 RAG 技術、聯網搜尋、閱讀文件等能力,讓模型不需要重新訓練也能變聰明。
因為這些額外能力越來越成熟,現在已經不需要無限制地堆資料、拼參數。像是 Google 的 Gemma 3、阿里巴巴千問 QWQ 這類小模型,早就能在很多任務上,打敗過去幾百億參數的大模型。
現在模型的聰明程度,比記得細節多不多更重要;而模型的理解力,遠比背誦能力更具關鍵。
拍攝這支影片的此刻,多模態模型已經正式上場。它們不只懂文字,還能看圖、聽聲音、修圖、畫圖,甚至參與進階對話。這代表 AI 的感知能力正在提升,從純文字世界,慢慢走進真實世界。
所以現在的煉丹術,早已不是煉一顆大腦那麼簡單,而是煉出來之後,還得整合資料庫、連網搜尋,甚至跟其他模組協同運作,才能變成真正有用的 AI。
想想看,不過短短一年,AI 模型的進步幅度,已經這麼驚人了。
下一節第六章第二節要來談
用訓練AI的方法來訓練人腦
這一章節我非常非常喜歡
真的很喜歡!
迫不及待想要分享給各位
記得繼續追蹤我們
也許我們後天就來講這個~掰