AI搜尋超級不可靠 20250326,AI搜尋工具表現不穩,錯誤率高達五到九成。無論是 Grok 3、ChatGPT、Perplexity,甚至本地的 Gemma 3,經常提供錯誤答案,連結也是亂編一通。更糟的是,AI還特別擅長「編故事」,細節越豐富,錯誤率反而越高。使用AI時,務必要小心查證。

AI搜尋超級不可靠 影片
今天我們來說
AI搜尋真的超級不可靠的事情
坦白說AI應該要很聰明的
可以幫我過濾所有東西
但是現在此時此刻的AI搜尋
真的很可怕而且漏洞百出
今天我們就來談這個很可怕的議題
我是亞瑟我有三高
每週一到每個禮拜五
我都會分享每天學到的點點滴滴
那今天剛好在度假
我們就分享一個最近這幾個月
困擾我已久的問題
也就是AI搜尋真的很麻煩
AI搜尋愛亂講

- 搜尋結果亂七八糟
- 講話自信但常錯
- 新聞資訊也亂編
- 裝內行卻漏洞百出
- 亂講話成日常操作
AI搜尋引擎,照理來說應該是最聰明的工具,但它有時候的表現真的像是在搞笑,甚至有點像是在惡搞。每次我問它問題,不是給出一堆亂七八糟的連結,就是乾脆裝死不回應。原本我以為這只是個別事件,結果越用越發現,這根本是AI的「日常操作」。
更誇張的是,這種「隨口亂講」的問題,已經不只是在一般資訊上會發生,甚至連搜尋新聞或查資料時也是如此。AI不僅愛亂講,而且特別擅長「裝內行」。它每次回答時,語氣堅定、細節豐富,看起來超級專業,結果查證後根本就是胡說八道。這種「一本正經地胡說」的行為,簡直像是一個專業的騙子,說得好像很可靠,實際卻是漏洞百出。
AI搜尋為什麼問題這麼嚴重?這正是我今天想探討的話題。接下來我會從一份研究報告開始,順便做個實驗,來看看AI搜尋到底是怎麼把自己玩壞的。
AI搜尋的研究

- 錯誤率普遍超過六成
- Grok錯到誇張九成四
- Perplexity相對穩定
- AI常造假連結來源
- 研究證實亂講非偶然
https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php
根據《Columbia Journalism Review》的研究,AI搜尋工具在回答問題時的錯誤率竟然超過60%,這個結果讓人非常傻眼。更有趣的是,表現比較好的AI工具是Perplexity,它的錯誤率約為37%,雖然表現相對穩定,但仍有三分之一的回答是錯的。
而錯誤率最高的,則是號稱最聰明的Grok 3,錯誤率竟然高達94%,堪稱「瞎掰王」中的王者。也就是說,問它10次,9次都在亂講,幾乎沒什麼可信度。
原本我以為,AI搜尋只是偶爾出錯,結果沒想到,現在有專業研究出來證明,AI工具根本是「專業亂講話」的高手。更荒謬的是,這些AI不僅愛亂編造答案,還特別擅長「做假鏈接」,生成一堆看起來很像真實網站的網址,結果你一點開根本就是錯的,甚至直接變成404頁面。
更誇張的是,部分AI還會「翻牆」跑去抓那些原本不該獲取的資訊。正確的答案它沒搞好,結果錯誤的卻特別賣力。今天我們就來透過這份研究,把其中一些數據拿出來看一看,順便結合我自己的使用經驗,來聊聊AI搜尋為什麼這麼糟糕。
Grok 3 最瞎掰

- 錯誤率高達九成四
- 錯還硬說自己沒錯
- 滿臉自信死不認錯
- 研究與實測完全吻合
- 被媒體點名才收斂
https://garymarcus.substack.com/p/grok-3-beta-in-shambles
之前我有拍過一支影片,專門在談Grok 3這款AI,當時它的賣點是「最聰明」而且「最沒有限制」的AI工具。結果現在看來,它不僅沒有「最聰明」,反而是「最愛瞎掰」的AI。根據《Columbia Journalism Review》的研究,Grok 3 的錯誤率竟然高達 94%,也就是問它10次,有9次都在胡說八道,堪稱「全錯專家」。
更糟糕的是,這個研究結果完全符合我自己的使用體驗。每次我請Grok 3提供連結,幾乎每個都是錯的,正確的少之又少。更讓人抓狂的是,當你指出它的錯誤時,Grok 3 不但不會認錯,還會滿臉自信地告訴你:「沒錯,我剛剛講的就是對的!」它那種「死不認錯」的態度,真的讓人火冒三丈。
說真的,這種「永不認錯」的行為,還真的跟它的老闆一模一樣。直到最近這一週,可能是因為被媒體報導批評後,Grok 3 終於稍微收斂了一點。它現在會開始提醒使用者:「Grok 3 其實無法直接連上網路搜尋,所以它提供的連結僅供參考。」
說穿了就是被媒體打臉之後,它才終於跳出來承認錯誤。雖然這反應慢了些,但至少它總算願意低頭了。這次,Grok 3 總算學乖一點,雖然不算完全改好,但已經比之前那種「自信亂講、死不認錯」的狀態好上不少。
ChatGPT 錯誤也高

- 錯誤率也接近一半
- 搜尋功能不等於可靠
- 重驗連結還是錯的
- 回答細節越多越錯
- 假引述讓人難分辨
https://www.theverge.com/2024/12/5/24313222/chatgpt-pardon-biden-bush-esquire
相比之下,ChatGPT 的錯誤率雖然比 Grok 3 稍微低一點,但也高達50%左右,等於問它兩次就有一次是錯的。最讓人費解的是,ChatGPT 明明具備上網搜尋的能力,卻還是頻繁給出錯誤的連結。
即便你要求 ChatGPT 再次確認鏈接是否正確,或者確認內容是否相關,它還會非常自信地回覆:「已經檢查過,一切沒問題。」結果點進去一看,不是「404 Not Found」,就是「雞同鴨講」。
ChatGPT 特別喜歡「加料」。在錯誤的答案裡,它往往會加入許多看似專業的細節,像是某年某月某日、某位專家的發言,甚至還會冒充某些媒體的「假引用」,讓整個回答看起來像是真的一樣。結果事後一查,才發現根本沒這回事。
最離譜的是,ChatGPT 越是講得自信、回答越是詳細的時候,錯誤率反而越高,越詳細的答案越要小心」,一定要測試它提供的鏈接。
Perplexity 穩定但有誤

- 錯誤率約三分之一
- 『資料來源』多半能點
- 連結存在但不一定對
- 模型選擇會影響正確性
- 預設模型表現較好
https://www.wired.com/story/perplexity-is-a-bullshit-machine
在一票錯誤率高達五成、九成的AI搜尋引擎中,Perplexity 算是表現比較穩定、相對可靠的一款工具。根據《Columbia Journalism Review》的研究,Perplexity 的錯誤率約為 37%,雖然還是有三分之一的答案會出錯,但已經算是AI搜尋工具裡的「模範生」了。
我自己在使用 Perplexity 時發現,它在回答中貼上的連結,確實有可能是錯的。不過,Perplexity 有一個很特別的優勢,那就是它回答下方的「資料來源」中,所附的連結通常是正確的,基本上都能正常點擊進去,不會出現 404 錯誤。雖然這些連結不一定和你問的問題完全相關,但至少是確實存在的網頁。
不過使用 Perplexity 時有一點需要特別注意 —— Perplexity 可以使用多種不同的語言模型,而每一種模型的「亂報」機率其實不一樣。像是 DeepSeek 這款模型就特別容易亂講,而預設的 Pro 模型相對來說會準確許多。
雖然 Perplexity 已經算是目前表現較穩定的 AI 搜尋工具,但使用時仍需注意模型選擇,並記得核對它提供的資訊,才能避免踩到錯誤的陷阱。
Gemma 3 也不穩

- 本地模型一樣會亂講
- 搜尋成功率忽高忽低
- 腦補能力比線上更強
- 細節憑空編造很驚人
- OpenWebUI支援仍不穩
https://www.techzine.eu/news/applications/129611/ai-search-engines-distribute-false-info-about-news
線上搜尋工具那麼容易亂講,我決定試試本地模型,於是使用了 Google 推出的 Gemma 3,搭配 Ollama 和 OpenWebUI。
過去的測試中, Gemma 3 的語言模型能力相當不錯,這次特別開啟網路搜尋功能,想看看它的表現。
結果發現 Gemma 3 的穩定不算太好,有時候的「腦補」能力甚至比線上模型更誇張。它不僅會亂編資料,還會憑空創造大量細節,讓人一度以為是真的。
不過 Gemma 3 也並非每次都亂來。有時它的搜尋結果意外精準,像測試這段草稿時,十幾個連結裡只有一個是錯的,這樣的表現其實還不錯。
這可能跟 OpenWebUI ,尚未完全支援 Gemma 3 的搜尋功能 有關。Gemma 3 有時能準確取得資料,但一旦搜尋失敗,它就立刻啟動「瞎掰模式」,寧可亂講也不拒答。
所以使用本地模型時,千萬別因為它是「本地端」就過度信任。測試、驗證、再驗證,才可以避免墜入他的瞎掰陷阱中。
AI搜尋偶爾越獄

- AI能繞過爬蟲限制
- 搜尋到封鎖與付費內容
- 能記住已刪除的文章
- 部分內容已涉侵犯隱私
- 偶爾揭露被隱藏的資料
https://www.forbes.com/sites/rashishrivastava/2024/06/11/the-prompt-perplexitys-plagiarism-problem
AI搜尋亂給答案不意外,但偶爾卻又異常厲害,甚至能找到一般人難以取得的資料。
有些網站為了防止AI亂爬資料,會設置「爬蟲限制」,有些語言模型卻硬是繞過限制,把那些原本不該曝光的資料翻了出來。
更誇張的是,很多媒體設了「付費牆」,有會員專屬的內容,AI雖然給了正確的連結,但不是會員的人是看不見的,所以點進去之後一樣是錯誤連結。
AI有時候也會記住已經刪除的文章。有些文章可能因為內容敏感、出錯,短暫上架後就被撤下來,但AI當初看過了,之後就能把這些「消失的內容」再翻出來。
這種「越獄」行為,雖然偶爾能帶來意外的資訊,但其實也引發不少隱私和侵權的問題。更糟的是,有時可能已經過時,甚至是錯誤的資訊。
所以AI搜尋偶爾能找到奇怪的東西,但「找的到」和「應該被找到」完全是兩回事,使用AI搜尋時,還是得多留意。
使用AI必須小心

- AI說錯話時特別自信
- 即使檢查仍堅持錯誤
- 擅長編造數據和細節
- 假連結看似真實實
- 交叉驗證避免錯誤
https://arxiv.org/pdf/2404.07981
AI搜尋的最大問題,就是它說錯話時特別自信,而且多半還不肯認錯。
即使我們要求AI,重新確認連結是否有效,或再次檢查內容是否正確,它依然可能理直氣壯地堅持錯誤的答案。
AI也特別擅長「編細節」,捏造看似精準的數據、日期,甚至是專家的說法,而亂編出的「假連結」,看起來像是來自知名網站,但實際上根本不存在。
再加上AI偶爾「越獄」,把原本已刪除、保密,甚至錯誤的資訊,也一併翻出來,讓人更難判斷哪些是真的、哪些是假的。
所以使用AI時,還是要多重驗證、交叉比對、反覆確認,特別是當AI講得特別自信時,更要提高警覺。
最後偷偷告訴你一個冷知識:有時候把一個AI給的錯誤資訊,貼給另一個AI去驗證,結果它會告訴你「一切正確」。垃圾驗證垃圾,最後還是垃圾。這點真的得特別小心。
那今天我的悲慘經驗就到這裡
希望未來AI搜尋會改善
那我們明天見~掰
補充一下,現在我會在AI搜尋裡面,增加下面指示,可以大大增加成功率
請實際去讀連結裡面的內容,確認連結是正常可使用並且內容相符,我也可以直接點擊連結開啟,如果你不確定答案,請直接說不確定,如果無法提供,請說明這只是你的推測。