AI搜尋超級不可靠 20250326

AI搜尋超級不可靠 20250326，AI搜尋工具表現不穩，錯誤率高達五到九成。無論是 Grok 3、ChatGPT、Perplexity，甚至本地的 Gemma 3，經常提供錯誤答案，連結也是亂編一通。更糟的是，AI還特別擅長「編故事」，細節越豐富，錯誤率反而越高。使用AI時，務必要小心查證。

Table of Contents

AI搜尋超級不可靠影片

今天我們來說
AI搜尋真的超級不可靠的事情
坦白說AI應該要很聰明的
可以幫我過濾所有東西
但是現在此時此刻的AI搜尋
真的很可怕而且漏洞百出
今天我們就來談這個很可怕的議題

我是亞瑟我有三高
每週一到每個禮拜五
我都會分享每天學到的點點滴滴
那今天剛好在度假
我們就分享一個最近這幾個月
困擾我已久的問題
也就是AI搜尋真的很麻煩

AI搜尋愛亂講

搜尋結果亂七八糟
講話自信但常錯
新聞資訊也亂編
裝內行卻漏洞百出
亂講話成日常操作

https://www.theguardian.com/technology/2024/nov/03/the-chatbot-optimisation-game-can-we-trust-ai-web-searches

AI搜尋引擎，照理來說應該是最聰明的工具，但它有時候的表現真的像是在搞笑，甚至有點像是在惡搞。每次我問它問題，不是給出一堆亂七八糟的連結，就是乾脆裝死不回應。原本我以為這只是個別事件，結果越用越發現，這根本是AI的「日常操作」。

更誇張的是，這種「隨口亂講」的問題，已經不只是在一般資訊上會發生，甚至連搜尋新聞或查資料時也是如此。AI不僅愛亂講，而且特別擅長「裝內行」。它每次回答時，語氣堅定、細節豐富，看起來超級專業，結果查證後根本就是胡說八道。這種「一本正經地胡說」的行為，簡直像是一個專業的騙子，說得好像很可靠，實際卻是漏洞百出。

AI搜尋為什麼問題這麼嚴重？這正是我今天想探討的話題。接下來我會從一份研究報告開始，順便做個實驗，來看看AI搜尋到底是怎麼把自己玩壞的。

AI搜尋的研究

錯誤率普遍超過六成
Grok錯到誇張九成四
Perplexity相對穩定
AI常造假連結來源
研究證實亂講非偶然

https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php

根據《Columbia Journalism Review》的研究，AI搜尋工具在回答問題時的錯誤率竟然超過60%，這個結果讓人非常傻眼。更有趣的是，表現比較好的AI工具是Perplexity，它的錯誤率約為37%，雖然表現相對穩定，但仍有三分之一的回答是錯的。

而錯誤率最高的，則是號稱最聰明的Grok 3，錯誤率竟然高達94%，堪稱「瞎掰王」中的王者。也就是說，問它10次，9次都在亂講，幾乎沒什麼可信度。

原本我以為，AI搜尋只是偶爾出錯，結果沒想到，現在有專業研究出來證明，AI工具根本是「專業亂講話」的高手。更荒謬的是，這些AI不僅愛亂編造答案，還特別擅長「做假鏈接」，生成一堆看起來很像真實網站的網址，結果你一點開根本就是錯的，甚至直接變成404頁面。

更誇張的是，部分AI還會「翻牆」跑去抓那些原本不該獲取的資訊。正確的答案它沒搞好，結果錯誤的卻特別賣力。今天我們就來透過這份研究，把其中一些數據拿出來看一看，順便結合我自己的使用經驗，來聊聊AI搜尋為什麼這麼糟糕。

Grok 3 最瞎掰

錯誤率高達九成四
錯還硬說自己沒錯
滿臉自信死不認錯
研究與實測完全吻合
被媒體點名才收斂

https://garymarcus.substack.com/p/grok-3-beta-in-shambles

之前我有拍過一支影片，專門在談Grok 3這款AI，當時它的賣點是「最聰明」而且「最沒有限制」的AI工具。結果現在看來，它不僅沒有「最聰明」，反而是「最愛瞎掰」的AI。根據《Columbia Journalism Review》的研究，Grok 3 的錯誤率竟然高達 94%，也就是問它10次，有9次都在胡說八道，堪稱「全錯專家」。

更糟糕的是，這個研究結果完全符合我自己的使用體驗。每次我請Grok 3提供連結，幾乎每個都是錯的，正確的少之又少。更讓人抓狂的是，當你指出它的錯誤時，Grok 3 不但不會認錯，還會滿臉自信地告訴你：「沒錯，我剛剛講的就是對的！」它那種「死不認錯」的態度，真的讓人火冒三丈。

說真的，這種「永不認錯」的行為，還真的跟它的老闆一模一樣。直到最近這一週，可能是因為被媒體報導批評後，Grok 3 終於稍微收斂了一點。它現在會開始提醒使用者：「Grok 3 其實無法直接連上網路搜尋，所以它提供的連結僅供參考。」

說穿了就是被媒體打臉之後，它才終於跳出來承認錯誤。雖然這反應慢了些，但至少它總算願意低頭了。這次，Grok 3 總算學乖一點，雖然不算完全改好，但已經比之前那種「自信亂講、死不認錯」的狀態好上不少。

ChatGPT 錯誤也高

錯誤率也接近一半
搜尋功能不等於可靠
重驗連結還是錯的
回答細節越多越錯
假引述讓人難分辨

https://www.theverge.com/2024/12/5/24313222/chatgpt-pardon-biden-bush-esquire

相比之下，ChatGPT 的錯誤率雖然比 Grok 3 稍微低一點，但也高達50%左右，等於問它兩次就有一次是錯的。最讓人費解的是，ChatGPT 明明具備上網搜尋的能力，卻還是頻繁給出錯誤的連結。

即便你要求 ChatGPT 再次確認鏈接是否正確，或者確認內容是否相關，它還會非常自信地回覆：「已經檢查過，一切沒問題。」結果點進去一看，不是「404 Not Found」，就是「雞同鴨講」。

ChatGPT 特別喜歡「加料」。在錯誤的答案裡，它往往會加入許多看似專業的細節，像是某年某月某日、某位專家的發言，甚至還會冒充某些媒體的「假引用」，讓整個回答看起來像是真的一樣。結果事後一查，才發現根本沒這回事。

最離譜的是，ChatGPT 越是講得自信、回答越是詳細的時候，錯誤率反而越高，越詳細的答案越要小心」，一定要測試它提供的鏈接。

Perplexity 穩定但有誤

錯誤率約三分之一
『資料來源』多半能點
連結存在但不一定對
模型選擇會影響正確性
預設模型表現較好

https://www.wired.com/story/perplexity-is-a-bullshit-machine

在一票錯誤率高達五成、九成的AI搜尋引擎中，Perplexity 算是表現比較穩定、相對可靠的一款工具。根據《Columbia Journalism Review》的研究，Perplexity 的錯誤率約為 37%，雖然還是有三分之一的答案會出錯，但已經算是AI搜尋工具裡的「模範生」了。

我自己在使用 Perplexity 時發現，它在回答中貼上的連結，確實有可能是錯的。不過，Perplexity 有一個很特別的優勢，那就是它回答下方的「資料來源」中，所附的連結通常是正確的，基本上都能正常點擊進去，不會出現 404 錯誤。雖然這些連結不一定和你問的問題完全相關，但至少是確實存在的網頁。

不過使用 Perplexity 時有一點需要特別注意 —— Perplexity 可以使用多種不同的語言模型，而每一種模型的「亂報」機率其實不一樣。像是 DeepSeek 這款模型就特別容易亂講，而預設的 Pro 模型相對來說會準確許多。

雖然 Perplexity 已經算是目前表現較穩定的 AI 搜尋工具，但使用時仍需注意模型選擇，並記得核對它提供的資訊，才能避免踩到錯誤的陷阱。

Gemma 3 也不穩

本地模型一樣會亂講
搜尋成功率忽高忽低
腦補能力比線上更強
細節憑空編造很驚人
OpenWebUI支援仍不穩

https://www.techzine.eu/news/applications/129611/ai-search-engines-distribute-false-info-about-news

線上搜尋工具那麼容易亂講，我決定試試本地模型，於是使用了 Google 推出的 Gemma 3，搭配 Ollama 和 OpenWebUI。

過去的測試中， Gemma 3 的語言模型能力相當不錯，這次特別開啟網路搜尋功能，想看看它的表現。

結果發現 Gemma 3 的穩定不算太好，有時候的「腦補」能力甚至比線上模型更誇張。它不僅會亂編資料，還會憑空創造大量細節，讓人一度以為是真的。

不過 Gemma 3 也並非每次都亂來。有時它的搜尋結果意外精準，像測試這段草稿時，十幾個連結裡只有一個是錯的，這樣的表現其實還不錯。

這可能跟 OpenWebUI ，尚未完全支援 Gemma 3 的搜尋功能有關。Gemma 3 有時能準確取得資料，但一旦搜尋失敗，它就立刻啟動「瞎掰模式」，寧可亂講也不拒答。

所以使用本地模型時，千萬別因為它是「本地端」就過度信任。測試、驗證、再驗證，才可以避免墜入他的瞎掰陷阱中。

AI搜尋偶爾越獄

AI能繞過爬蟲限制
搜尋到封鎖與付費內容
能記住已刪除的文章
部分內容已涉侵犯隱私
偶爾揭露被隱藏的資料

https://www.forbes.com/sites/rashishrivastava/2024/06/11/the-prompt-perplexitys-plagiarism-problem

AI搜尋亂給答案不意外，但偶爾卻又異常厲害，甚至能找到一般人難以取得的資料。

有些網站為了防止AI亂爬資料，會設置「爬蟲限制」，有些語言模型卻硬是繞過限制，把那些原本不該曝光的資料翻了出來。

更誇張的是，很多媒體設了「付費牆」，有會員專屬的內容，AI雖然給了正確的連結，但不是會員的人是看不見的，所以點進去之後一樣是錯誤連結。

AI有時候也會記住已經刪除的文章。有些文章可能因為內容敏感、出錯，短暫上架後就被撤下來，但AI當初看過了，之後就能把這些「消失的內容」再翻出來。

這種「越獄」行為，雖然偶爾能帶來意外的資訊，但其實也引發不少隱私和侵權的問題。更糟的是，有時可能已經過時，甚至是錯誤的資訊。

所以AI搜尋偶爾能找到奇怪的東西，但「找的到」和「應該被找到」完全是兩回事，使用AI搜尋時，還是得多留意。

使用AI必須小心

AI說錯話時特別自信
即使檢查仍堅持錯誤
擅長編造數據和細節
假連結看似真實實
交叉驗證避免錯誤

https://arxiv.org/pdf/2404.07981

AI搜尋的最大問題，就是它說錯話時特別自信，而且多半還不肯認錯。

即使我們要求AI，重新確認連結是否有效，或再次檢查內容是否正確，它依然可能理直氣壯地堅持錯誤的答案。

AI也特別擅長「編細節」，捏造看似精準的數據、日期，甚至是專家的說法，而亂編出的「假連結」，看起來像是來自知名網站，但實際上根本不存在。

再加上AI偶爾「越獄」，把原本已刪除、保密，甚至錯誤的資訊，也一併翻出來，讓人更難判斷哪些是真的、哪些是假的。

所以使用AI時，還是要多重驗證、交叉比對、反覆確認，特別是當AI講得特別自信時，更要提高警覺。

最後偷偷告訴你一個冷知識：有時候把一個AI給的錯誤資訊，貼給另一個AI去驗證，結果它會告訴你「一切正確」。垃圾驗證垃圾，最後還是垃圾。這點真的得特別小心。

那今天我的悲慘經驗就到這裡
希望未來AI搜尋會改善
那我們明天見～掰

AI搜尋超級不可靠 20250326

AI搜尋超級不可靠影片

AI搜尋愛亂講

AI搜尋的研究

Grok 3 最瞎掰

ChatGPT 錯誤也高

Perplexity 穩定但有誤

Gemma 3 也不穩

AI搜尋偶爾越獄

使用AI必須小心

在〈AI搜尋超級不可靠 20250326〉中有 1 則留言

發佈留言取消回覆

AI搜尋超級不可靠 影片

AI搜尋愛亂講

AI搜尋的研究

Grok 3 最瞎掰

ChatGPT 錯誤也高

Perplexity 穩定但有誤

Gemma 3 也不穩

AI搜尋偶爾越獄

使用AI必須小心

相關文章

在〈AI搜尋超級不可靠 20250326〉中有 1 則留言

發佈留言 取消回覆

AI搜尋超級不可靠影片

發佈留言取消回覆