中國科技公司 DeepSeek 最近推出的 v3 模型,無疑是今年最出色的開源 AI 模型之一,此次創新引發了不少關注與討論。然而,模型在某些回答中卻自稱為「ChatGPT」,因此有不少評價認為這可能只是抄襲之作。但作為香港的科技媒體,我們更希望深入分析這款 AI 為何能引起業界的強烈震撼。這次並非我們熟悉的低成本抄襲,那麼究竟 DeepSeek 的突破在於何方呢?
DeepSeek 由中國私募基金「幻方量化」於 2023 年創立,專注於開發先進的 AI 技術。儘管成立不久,DeepSeek 已憑藉卓越的科技創新快速崭露頭角,令人矚目的 DeepSeek-V3 模型配置了高達 6710 億個參數,打造出性能與成本間的新標準。
令人振奮的是,DeepSeek 僅以 557 萬美元的成本,於兩年內打造出如此高效的 AI 模型,這與 OpenAI 的 GPT-4 模型所需的 6300 萬美元相比,可算是顯著的成本優勢,甚至預測中未來的 GPT-5 整體預算將可能高達 5 億美元。此成就源於數項創新技術的支持。
DeepSeek-V3 模型在推理過程中有效減少資源需求,這得益於其獨特的「混合專家架構」,該架構僅需啟用 370 億參數進行推理,從而大幅降低實時運算的資源消耗。相比之下,GPT-4 這類完整模型一旦啟動,則通常需要消耗大量運算能力及記憶體,運行所需的內存甚至可達數百 GB。
為進一步提升性能,DeepSeek-V3 結合了多頭潛在注意力(MLA)技術,這項技術能有效地降低長文本處理時的內存需求,減少高達 96% 的資源消耗。此外,加入的解耦位置編碼(RoPE)技術,亦確保了壓縮後的數據能保留必要的位置信息,進一步提升推理的速度和準確性。
這些技術突破表明,未來的 AI 技術不僅能在高端伺服器上高效運行,還能輕鬆地移植到手機及平板等消費電子產品,令用戶能以低成本享受到媲美傳統高性能硬件的 AI 服務,真正實現市場的技術平民化。
不過,DeepSeek 的潛力雖然可觀,卻亦引發一些疑慮。如 DeepSeek-V3 在測試中自稱 ChatGPT,讓許多人質疑其訓練數據是否包含來自 ChatGPT 的內容。此情況引發了對模型獨立性和數據透明性的討論,目前 DeepSeek 尚未對此作出正式回應,亦帶出 AI 技術發展的透明化與規範化的重要性。Open AI 的 Sam 似乎在 X 上對此事表達了一些看法。
經過對 Deepseek 背後技術的深入分析,我們看到它為何在業界引起如此大的反響:中國市場擁有全球最大的數據資源,然而在硬件運算能力方面受到多種因素的限制,這使得中國的 AI 企業愈發注重效率的提升。DeepSeek 的成功正彰顯了資源與效能之間的新平衡。同時,隨着 Google、微軟及 Meta 等科技巨頭因 AI 訓練耗電量巨大而開始押注核能,DeepSeek 等新興企業則選擇用技術創新減少資源浪費,為整個行業提供新的解決思路。DeepSeek 的故事提醒我們,未來 AI 的競爭不單是關乎技術本身,還需要在資源利用上尋找最佳解決方案,這或許是變革市場遊戲規則的關鍵所在。