Deepseek終端執行 手機與電腦實測 20250212

Deepseek終端執行 手機與電腦實測 20250212

Deepseek終端執行 手機與電腦實測 20250212,DeepSeek R1 本地端 AI 測試,涵蓋手家與筆電,結果顯示手機適合 1.5B 3B,電腦則適合 8B 14B。Llama 3B 表現意外優秀,而 DeepSeek R1 有審查問題,更中立的AI模型仍待發展。

Deepseek終端執行 手機與電腦實測 20250212

Deepseek終端執行 手機與電腦實測 影片

終端模型類別

Deepseek終端執行 手機與電腦實測 20250212
  • AI參數決定知識量
  • 精度影響準確與速度
  • 模型大小影響執行需求
  • 1.5B適合手機
  • 8B適合電腦

https://enclaveai.app/blog/2024/05/13/understanding-llm-model-sizes

這次我們要測試 DeepSeek 的模型,但在講測試之前,先來搞清楚一些常見的數字,像 8B、4BIT、4.3G,這些到底是什麼意思?

模型參數(Billion, B)

1.5B、8B、14B 指的是 參數數量,簡單來說,就是 AI 知識量的大小。參數越多,當然 AI 就越聰明,但運行起來也會更吃硬體。

模型精度(Bit)

精度 影響 AI 的計算方式和輸出效果:
•8BIT → 高精度,答案準確度高。
•4BIT → 效能與精準度平衡,適合一般應用。
•3BIT → 精度壓縮,運行快但可能會有點迷糊。

如果比喻一下,8BIT 是超級清醒,4BIT 是正常狀態,3BIT 則有點恍惚,但還是能用。

模型檔案大小(GB)

參數大小 + 精度 會影響模型的 實際檔案大小,所以才會有這些數字:
•1.2G → 小型模型,適合手機用。
•4.3G → 中型模型,手機或電腦都能跑。
•10G 以上 → 這種就要靠高性能電腦了。

這次我們就選了幾個 DeepSeek 的模型,來看看 手機 vs. 電腦,哪邊跑起來比較順、效果比較好。

模型測試環境

Deepseek終端執行 手機與電腦實測 20250212
  • iPhone 15 Pro
  • MacBook Pro M4
  • 測試1.5B 3B 8B 14B
  • 平價機可執行相同測試
  • 終端AI硬體需求低

https://dev.to/best_codes/5-best-ai-models-you-can-run-locally-on-your-device-475h

這次測試的重點是終端 AI 的實際表現,所以我分別在 手機 和 電腦 上進行測試,選擇的設備也都是一般人能夠取得的規格。

手機端

我用的是 iPhone 15 Pro,配備 8GB 記憶體,AI運算最相關的NPU,也就是神經網路運算單元,運算力為 35 TOPS,速度為 35 TOPS。主要測試的模型是 1.5B、3B 和 8B。

如果你是iPhone 14 Pro,也可以測試1.5B跟3B的模型,速度上會比15 Pro慢一半,但是還是可以測試的。

電腦端

電腦用的是 MacBook Pro M4,24GB 記憶體,NPU 為 38 TOPS,測試工具則是 LM Studio,主要跑 8B 和 14B 的模型。

其實電腦端不一定要用昂貴的機器,像最近很便宜的 Mac mini M4,售價不到台幣兩萬元 也能跑一樣的模型,運算能力基本沒差,代表測試本地端 AI,不需要太高的硬體成本,人人都可以測試。

目前適合終端 AI 的模型選擇並不多,大致上就是 1.5B、3B、8B、14B 這幾個規模,所以如果你的設備稍微高一點或低一點,測試結果應該也差不多。

手機端APP

Deepseek終端執行 手機與電腦實測 20250212
  • Apollo PrivateLLM
  • 付費APP穩定但限制多
  • PocketPal免費自由高
  • Android 也可以跑
  • 推薦PocketPal測試最佳

https://beebom.com/how-run-deepseek-r1-locally

這次測試主要是用 iPhone 15 Pro,Android 也可以跑本地 AI,大家可以自己試試看。

測了三個 APP,Apollo AI、Private LLM、PocketPal,大致分成兩類。

第一種是付費的,像 Apollo AI 跟 Private LLM,這兩個 APP 運行起來超穩,模型載入快,還會幫你挑好比較順的模型,直接下載就能用。而且 iPhone 15 Pro 真的能跑 8B 的模型,表現算不錯。

但問題是這兩個 APP,只能用它內建的模型,不能隨便下載自己想測的,所以自由度比較低,還好只要幾塊錢美金。

第二種是免費的 PocketPal,這個 APP 完全不用錢,可以去 Hugging Face,下載任何你想測的模型,自由度超高,而且不管是 iOS 還是 Android 都能用。

但缺點就是記憶體管理沒那麼好,如果載入 8B 以上的模型,有時候會失敗,甚至要手動重試幾次。介面也比較陽春,不像前面兩個 APP 那麼順手。

總結一下,付費的不用買,雖然穩定但模型選擇太少。PocketPal 雖然偶爾會卡住,但自由度最高,我自己是最推薦這個的。

手機模型測試

Deepseek終端執行 手機與電腦實測 20250212
  • 測試DeepSeek R1模型
  • 1.5B穩定適合日常
  • 8B運行慢過大易崩潰
  • Llama 3B速度快摘要準
  • 2~3GB大小最適合手機

https://aws.amazon.com/de/blogs/aws/introducing-llama-3-2-models-from-meta-in-amazon-bedrock-a-new-generation-of-multimodal-vision-and-lightweight-models

這次測試的模型包括 DeepSeek R1 蒸餾過的 1.5B 和 8B,另外還加了一個 Llama 3B 原生模型,來看看在手機端的運行表現如何。

測試的重點放在 AI 手機最常用的應用場景,像是 即時翻譯、摘要、助理功能、文章改寫。為了測試這些能力,我特別拿了一段 之前 DeepSeek 影片的逐字稿,讓這三個模型各自做摘要,看看表現怎麼樣。

1.5B DeepSeek 模型,表現穩定,摘要準確,適合作為日常助理,而且記憶體占用小,運行流暢。

8B DeepSeek 模型,測試了兩個版本:較低精度的4.2GB 版本:運行還行,雖然 速度較慢,但輸出內容還算可以接受。

但較高精度的4.92GB 版本:載入經常失敗,即使成功運行,推理過程也 容易崩潰或暴走,不建議使用。

Llama 3B 原生模型,表現最佳,速度快、穩定性高,摘要內容抓重點也比較自然。

測試下來發現,iPhone 15 Pro 最適合的模型大小,大概落在 2~3GB 之間。這樣的大小不會讓手機跑得太慢,也比較不容易崩潰,使用起來最順暢。

意外的是,Llama 3B 竟然比 DeepSeek R1 更適合手機端運行。DeepSeek 本身有反覆推理(Chain of Thought, COT)的能力,但簡單的摘要、助理任務上,Llama 這種線性思考的模型反而表現更好。

所以如果是 手機端日常使用,不用特別堅持 DeepSeek 這類高推理能力的模型,Llama 3B 這種模型反而更順、更穩,更適合日常 AI 助手的需求。

電腦端測試

Deepseek終端執行 手機與電腦實測 20250212
  • 測試14B~7B蒸餾模型
  • 三者摘要清楚無大差異
  • 14B Qwen內容佳速度慢
  • 8B Llama摘要快抓重點強
  • 8B Llama破解版竟然最佳

https://huggingface.co/deepseek-ai/DeepSeek-R1

這次在 電腦端 測試了三個 DeepSeek R1 蒸餾過的模型,分別是 14B Qwen、8B Llama、7B Qwen,先來測試它們的 基本摘要能力。結果這三個模型都能順利完成摘要,邏輯清楚,結構完整,沒有什麼太大差異。

不過接下來就進入 第二階段測試,我讓 AI 閱讀一本完整的書,這本書是 《權力與進步》,請它做 深層摘要,看看它們的表現如何。

14B Qwen 的摘要算是最完整的,條理也很清楚,不過 運行時間比較長,在這邊就有發現,只要使用 DeepSeek,書中批評中國的部分,部分就會被直接忽略。

再來是 8B Llama,它的 摘要速度最快,內容簡明扼要,抓重點的能力也很強。我覺得 如果是一般日常使用的話,這應該是最適合的模型,又快又準,整體來說表現很好。

然後 7B Qwen,這個模型的 摘要內容比較短,細節也比較少,有時候會摻雜一些英文,這點讓我有點意外。

最後額外測試了一個 「8B Llama 破解版」,這個版本 試圖避開敏感內容審查,結果它的表現反而是最好的。保留了原本的高效率,摘要的內容更加完整。

整體來說,8B Llama 是表現最好的,速度快,內容準確,基本上適合各種應用。如果再未來能提煉出,中立表達的AI模型,就是 100 分的本地端模型了。

本地測試分析

Deepseek終端執行 手機與電腦實測 20250212
  • 手機適合小型模型
  • 8B以上運行不穩定
  • 電腦處理長文與大數據
  • 蒸餾技術提升AI可用性
  • 手機日常/電腦深度應用

https://finance.sina.com.cn/tech/roll/2024-07-03/doc-incavpys8502234.shtml

手機端適合 1.5B 或 3B 的小型模型,能處理 翻譯、摘要、語音轉文字 這類日常工作,但 8B 以上的模型運行起來就不穩定,不是速度慢就是直接崩潰,甚至有時候回答會亂掉。而且即使用小型模型,一旦輸入太多內容,例如讓 AI 總結一本書,手機還是很容易撐不住,要嘛崩潰,要嘛亂回答。再加上運算過程手機會過熱,變慢又燙,影響使用體驗。

電腦的話當然穩定許多,8B、14B 的模型都能跑,小模型的反應速度也比手機快很多。更大的優勢是電腦能處理長文本、大型報告、多語言整合,甚至丟一本書進去都沒問題,幾乎不會暴走。但如果硬要載入 70B 這種超大模型,那電腦也會直接爆掉,這個還是現階段的技術限制。

總結來說,現在蒸餾技術確實讓 AI 在手機和電腦上都能用,手機適合日常小任務,電腦則能應付大部分需求。但如果要讓 AI 自己建立完整知識庫,甚至模擬一個作家的人格,那還是超出目前終端 AI 的能力範圍,需要更大的模型跟更強的硬體。

注意內容審查

Deepseek終端執行 手機與電腦實測 20250212
  • DeepSeek忽略批評中國
  • 14B 8B 7B皆有此問題
  • Llama能忠實摘要內容
  • 中國審查影響資訊完整性
  • 中國AI需注意篩選問題

https://www.promptfoo.dev/blog/deepseek-censorship

這次測試時,我用了 《權力與進步》 這本書,這是 2024 年諾貝爾經濟學獎得主,Daron Acemoglu 的作品,裡面有一些 批評中國政策 ,以及和利用 AI 思想控制 的內容。

但當我用 DeepSeek R1,蒸餾過的模型 來摘要時,這些批評內容全部被跳過,不管是 14B、8B 還是 7B,甚至 號稱破解版的版本,都會 自動忽略這些段落,試了幾次結果都一樣。

後來我 改用 Llama 的原型模型測試,結果發現 Llama 會忠實抓取書中的批評內容,不會選擇性忽略。

有人可能覺得,中國模型的言論審查沒什麼,但這已經不只是 屏蔽敏感詞 或 宣傳特定立場,現在的情況是 只要是批評中國的內容,這些 AI 直接當作沒看到。

所以,如果用的是中國的 AI模型,務必要多留意,因為輸出內容可能早就被動過手腳了。

終端模型的未來

Deepseek終端執行 手機與電腦實測 20250212
  • 手機電腦AI運行穩定
  • 8B模型適合終端設備
  • DeepSeek受意識形態影響
  • 期待更中立無審查模型
  • 終端AI應用潛力巨大

https://www.runloop.ai/blog/how-knowledge-distillation-powers-efficient-ai-models

從這次測試來看,現在手機和電腦已經可以穩定地運行 AI 模型,像 1.5B與3B模型,在手機上表現得非常流暢,而 8B 大小在電腦端的穩定性,和準確性也非常優秀,蒸餾技術確實讓模型的應用變得更加實際。

但很可惜的是,現在還有一個很大的問題,那就是意識形態的限制。

DeepSeek 遇到中國相關問題時,回答有時不準確,有時會扭曲數數,甚至是直接忽略批評,這讓它的表現大打折扣。

期待未來有更多,真正中立、沒審查的模型推出,這樣 AI 在終端設備上的應用,才會更上一層樓。無論是日常使用還是專業應用,肯定都會變得更好用、更可靠。

那問題來了:現在終端模型已經可以導入,你準備好試試看了嗎?

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端