AI語言模型|架構 預訓練 微調 對齊|RAG 檢索式生成 聯網搜尋

AI語言模型|架構 預訓練 微調 對齊|RAG 檢索式生成 聯網搜尋

AI語言模型 架構 預訓練 微調 對齊 RAG 檢索式生成 聯網搜尋,這支影片完整拆解語言模型的訓練流程,從架構設計、預訓練、微調到對齊,再到RAG檢索與即時查詢,解釋AI模型如何一步步變得更聰明,並結合2025年的最新發展趨勢。

AI語言模型 架構 預訓練 微調 對齊 RAG 搜尋 影片

這支影片我們要來完整拆解
語言模型的訓練流程
從架構設計、預訓練、微調到對齊
再到RAG、再到即時查詢
一步一步解釋AI模型
如何變得更聰明的

我是亞瑟我有三高
每週一到每個禮拜五
我都會日更這個頻道
分享每天學到的點點滴滴
那今天我們就來啃一點比較硬的東西
AI語言模型一路上的進展

語言模型煉丹術

AI語言模型 架構 預訓練 微調 對齊 RAG 檢索式生成 聯網搜尋

拐點第六章第一節內容
從GPT講起的煉丹學
多模態模型已經上場
從堆資料到精選智慧
語言模型的發展轉折

https://www.eslite.com/product/10012036172682610040003

這支影片我們要來講《拐點》第六章第一節,標題是「煉丹:大語言模型怎麼煉製的」。坦白說我蠻訝異萬維鋼老師,會把這一節放在這麼後面來講,我應該會放在本書一開始。

這本書是在 2024 年出版的,當時的主流做法是拼資料、拼參數,模型越大越厲害。但到了現在,小模型像 Gemma 3、QWQ,參數不多表現卻很強,讓大家重新思考,「夠用就好」是不是更實際。

另外,多模態模型也上場了,不只是看文字,還能辨識圖片、聲音,甚至修圖、畫圖,功能越來越完整。像 ChatGPT-4o 就展現了驚人的修圖能力,我們昨天那集也有提到。

所以我認為,現在我們正站在一個轉折點上,從過去拼資料,轉向拼理解力,從語言模型走向多模態整合。

而這一章講的四大步驟:架構、預訓練、微調、對齊,到今天都還是基礎流程,接下來我們就一步一步來講。

架構-怎麼選

AI語言模型 架構 預訓練 微調 對齊 RAG 檢索式生成 聯網搜尋
  • 模型架構決定大腦形式
  • Transformer理解上下文
  • Diffusion還原圖片內容
  • GPT4o生圖採自回歸機制
  • 架構選擇依需求而定

https://ithelp.ithome.com.tw/articles/10346968

建構語言模型的第一步叫做「架構」,也就是模型的大腦長什麼樣子。最經典的是 Transformer 架構,像 ChatGPT 或大多數語言模型都是這樣。它的特點是用 Self-Attention,也就是自注意力機制,分析一整段語意中所有詞的關聯,抓出連結,這才有辦法理解上下文,寫文章、寫程式。

另一種架構叫做 Diffusion,主要用在圖片生成,它是在一堆雜訊中還原出清晰的圖片,Stable Diffusion 就是代表。OpenAI 推出的 Sora 模型就是把 Diffusion 跟 Transformer 結合,可以做到文字轉影片。

不過錄影的當下,ChatGPT-4o 已經可以畫圖、理解圖片,它背後用的是多專家混合架構(MoE),其中畫圖這部分,很可能採用的是自回歸架構(autoregressive),搭配 Transformer,一步一步從上到下、從左到右畫出來,效果很自然。

2024年當時年,大家比的是誰的參數多誰就強,但現在像 Gemma 3 用 27B ,也能跑出很聰明的結果。所以這段最後的重點是:沒有一個理論,能告訴你哪個架構最好,一切都要看當下的需求和技術。

預訓練-餵語料

AI語言模型 架構 預訓練 微調 對齊 RAG 檢索式生成 聯網搜尋
  • 預測字是模型學習核心
  • 語料成本高搶者為王
  • 預訓練靠算力不是人力
  • 模型可搜尋補足資料
  • 資料精準提升模型效率

https://huggingface.co/learn/nlp-course/zh-TW/chapter7/6

AI 模型的第二步叫做「預訓練」,也就是把資料餵進去,讓模型學習。語言模型的核心原理其實不複雜,就是「預測下一個字」。雖然聽起來很簡單,卻是整個模型運作的基礎。它透過大量語料去猜測下一個字,一邊猜、一邊學。

2024 年時最大的挑戰是語料太貴,像《紐約時報》就控告 OpenAI,Reddit 把資料賣給 Google,一年收六千萬美元,甚至 Meta 還被爆出用盜版書籍當訓練資料。那時候的邏輯就是:誰掌握語料,誰就有優勢。

預訓練這一步主要拼的是算力,不太需要人力。OpenAI 在做 GPT 的預訓練時,只動員十幾個人,真正的核心資源是大量 GPU。這場比的其實是算力的軍備競賽。

到了 2025 年,語言模型已經可以上網搜尋,來彌補資料不足。這代表預訓練不再只是「資料越多越好」,而是「資料必須夠準確」。

現在的趨勢是:資料選得越精準,模型就能用更少的參數、達到更高的智力。我們在做本地端資料庫、RAG 檢索式生成的時候,也是一樣,要剔除沒用的內容,讓語料越乾淨越好,這樣模型才跑得快、回答得準。

微調-模型說人話

AI語言模型 架構 預訓練 微調 對齊 RAG 檢索式生成 聯網搜尋
  • 微調讓模型更像人說話
  • 靠範例教學提升回應品質
  • 人工標註是最辛苦階段
  • GPT可協助產生訓練資料
  • 懂得類比舉一反三應用

https://www.appendata.com/blogs/fine-tuning

語言模型光是會預測字還不能直接用。你問它問題,它只是逐字去猜,很容易講出一段不自然、像機器講的話。所以第三步就是「微調」,讓模型學會怎麼說出像人的話。

微調的做法,就是給模型一些範例,教它怎麼回答才算好。

比如你問它「誰是歐巴馬」,原本它可能只會回答「第44任總統」,但經過微調後,它會補充說「出生夏威夷、具有肯亞血統」,甚至講出更多背景,讓回答變得有層次、有溫度。

這一步最辛苦,需要大量工程師一題一題人工標註,設計題目也要夠廣、邏輯夠清楚。雖然現在可以用 GPT ,輔助自動生成範例,加快訓練效率,但整體來說,這還是最花人力的環節。

不過好消息是,很多問題只要訓練一次就夠。你教會它回答「歐巴馬是誰」,它就能自己套用這類方式,來回答「蔡英文是誰」、「愛迪生是誰」。

這就是語言模型厲害的地方,它懂得類比、舉一反三,把知識轉成活用。

對齊-價值觀

AI語言模型 架構 預訓練 微調 對齊 RAG 檢索式生成 聯網搜尋
  • 對齊是語言模型價值選擇
  • RLHF回饋修正回應風格
  • 看臉色是訓練社會語感
  • 多數與少數如何公平呈現
  • 中國模型價值觀引發討論

https://www.microsoft.com/en-us/research/articles/value-compass/

模型會說人話還不夠,它還要懂得「說對的話」。這一步叫做「對齊」(Alignment),搭配的技術是 RLHF,也就是人類反饋強化學習。簡單講,就是讓模型學會說出讓人滿意、不惹怒人的內容。

你每次在用 GPT 按「有幫助」、「沒幫助」,其實都在教它哪種回答比較好。久而久之,模型就會根據人類的反應,調整它的回答方式,這就是它學會「看臉色」的過程。

但問題是:什麼叫對齊?跟誰對齊?這其實是一種價值觀的選擇。不同的國家、文化、社會,標準本來就不同。

比如社會上九成人認同 A,一成認同 B,那模型要不要把 A 和 B 都講出來?如果兩個都講,可能讓少數聲音看起來像主流;但如果只講 A,又可能會被批評壓抑了多元觀點。

所以說『對齊』不只是技術調整,更像是一種社會訓練。它其實是在教模型什麼話能說、怎麼說不會出事。

這也正是我們目前討論 AI 的立場、意識形態差異最根本的核心。像中國的 DeepSeek 模型,很多回應就跟自由社會的價值觀不同,這條界線怎麼畫,怎樣才算中立,是當前我們最該關注的重點。

RAG-企業戰場

AI語言模型 架構 預訓練 微調 對齊 RAG 檢索式生成 聯網搜尋
  • RAG查資料再生成回答
  • 資料外掛可更新易管理
  • 台灣企業廣泛導入實作
  • 比微調簡單更省成本
  • AI落地應用的現實解法

https://blog.infuseai.io/rag-retrieval-augmented-generation-introduction-a5854cb6393e

前面幾步只是把模型訓練好,但訓練完之後,怎麼讓它學到新的知識?2024 年開始有一種主流解法叫做 RAG,全名是 Retrieval-Augmented Generation,簡單說就是「先查資料庫資料、再生成回答」。

做法是把公司的知識、文件、資料,轉成向量資料庫,也就是用語意的方式儲存資料。當模型收到提問時,不是憑空猜,而是先去資料庫找出相關內容,理解之後再回答。

這種方式的好處是:資料是外掛的、可以隨時更新,也比較容易管理,還能保有隱私。

到了 2025 年成為企業主流,前幾天去參觀 AI 博覽會,發現七八成的企業都在做 RAG 系統。有些接 GPT 的 API,有些是用本地的開源模型,但共通點就是:整合自己的資料庫,打造真正能落地的 AI。

雖然這不像預訓練那樣,把知識內化進模型裡,不過微調模型工程非常浩大,但 RAG 的優勢是簡單、實用、成本低。這種方式目前已經成為,企業導入 AI 最可行、最務實的一條路。

聯網-即時查詢

AI語言模型 架構 預訓練 微調 對齊 RAG 檢索式生成 聯網搜尋
  • 早期聯網效果不理想
  • 主流模型具即時搜尋
  • 搜尋等於即時學習
  • AI搜尋仍可能出錯
  • 讀PDF即時理解內容

https://www.phppan.com/2025/02/deepseek-r1-web-search-rag

ChatGPT 在《拐點》這本書出版的時候,其實就已經可以透過外掛,做一些有限的聯網搜尋了,不過當時效果真的很差,速度慢、內容不準確,體驗也不穩定。

到了 2025 年此刻,像 ChatGPT、Perplexity、DeepSeek 這些主流模型,早就具備即時查資料的能力。他們會先上網搜尋,再把查到的內容理解後,整理出一個新的回答。這種方式已經不只是搜尋,更像是一種即時學習。

現在幾個線上的 AI 模型,不但可以查詢最新資訊,還能主動去深挖資料,甚至幫你寫出完整的報告。

但要提醒一下,這些 AI 搜尋還是有可能出錯,我之前寫過一篇文章,專門分析這件事。不過既然我在本地端,都能做出幾乎零錯誤的搜尋功能,相信這些大公司應該也會解決這個問題的。

還有一種做法,就是你直接把一篇 PDF、一份報告,甚至整本書丟進 AI 對話框,它會先理解內容,再根據內容回答問題。這對我來說,已經是日常工作的一部分了。

這也說明了一件事:模型不再只靠記憶資料庫回答,而是可以根據新資料做即時學習,參數數量早就不是決定一切的關鍵了。

智能夠用就好

AI語言模型 架構 預訓練 微調 對齊 RAG 檢索式生成 聯網搜尋
  • 模型訓練四步仍主流
  • RAG與搜尋讓模型進化
  • 小模型已可打敗大模型
  • 多模態模型正式上場
  • AI正從文字走向現實

https://money.udn.com/money/story/11162/8591507

語言模型的初始訓練分四步:架構、預訓練、微調、對齊,這在今天仍然是主流。不過,為了讓模型能持續進步、學會新知,後來又加入了 RAG 技術、聯網搜尋、閱讀文件等能力,讓模型不需要重新訓練也能變聰明。

因為這些額外能力越來越成熟,現在已經不需要無限制地堆資料、拼參數。像是 Google 的 Gemma 3、阿里巴巴千問 QWQ 這類小模型,早就能在很多任務上,打敗過去幾百億參數的大模型。

現在模型的聰明程度,比記得細節多不多更重要;而模型的理解力,遠比背誦能力更具關鍵。

拍攝這支影片的此刻,多模態模型已經正式上場。它們不只懂文字,還能看圖、聽聲音、修圖、畫圖,甚至參與進階對話。這代表 AI 的感知能力正在提升,從純文字世界,慢慢走進真實世界。

所以現在的煉丹術,早已不是煉一顆大腦那麼簡單,而是煉出來之後,還得整合資料庫、連網搜尋,甚至跟其他模組協同運作,才能變成真正有用的 AI。

想想看,不過短短一年,AI 模型的進步幅度,已經這麼驚人了。

下一節第六章第二節要來談
用訓練AI的方法來訓練人腦
這一章節我非常非常喜歡
真的很喜歡!
迫不及待想要分享給各位
記得繼續追蹤我們
也許我們後天就來講這個~掰

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端