近期,中国科技界的大事件非 DeepSeek 推出的 v3 模型莫属了,这款开源 AI 模型真是让人眼前一亮。可是,当它在回答问题时突然自诩为“ChatGPT”时,不少人开始怀疑这是否是剽窃之举。不过,作为香港的一家科技媒体,我们更希望挖掘更多,探索为何这款 AI 能够在业界引起这样的轰动。 首先,要澄清的是,DeepSeek 的这次突破并非我们传统意义上的“仿造”。它到底有何独到之处呢?在详细分析之前,我们先要了解这种错称“ChatGPT”的问题可能仅是模型训练过程中的一次小插曲,而非其核心价值。观众们,这次深度探索,我们将一探究竟,看看 DeepSeek 的 v3 模型能带给我们哪些惊喜。
DeepSeek 是由中国私募基金“幻方量化”于 2023 年创立的,专注于开发前沿的 AI 技术。虽然公司成立时间不长,但 DeepSeek 凭借其卓越的科技创新迅速成为焦点。其引人注目的 DeepSeek-V3 模型装备了高达 6710 亿个参数,为性能与成本之间设置了新的标准。
令人兴奋的是,DeepSeek 只花费了 557 万美元,在短短两年内就开发出了这样一款高效的 AI 模型。相比之下,OpenAI 的 GPT-4 模型花费了 6300 万美元,显而易见,DeepSeek 在成本上的优势十分显著。而且,据预测未来的 GPT-5 整体预算将可能高达 5 亿美元。这一成就得益于多项创新技术的支持。
DeepSeek-V3模型在进行推理时大幅降低资源消耗,这归功于其独创的“混合专家架构”。这种架构只需激活370亿个参数就能完成推理,有效减少了实时运算所需的资源。与此相比,像GPT-4这样的全功能模型一旦启动,往往需要耗费大量的计算能力和内存,运行所需的内存甚至可能高达数百GB。
为了进一步激发性能潜力,DeepSeek-V3 结合了多头潛在注意力(MLA)技术,这种技术有效降低了处理长文本时的内存需求,能够减少高达 96% 的资源消耗。此外,新加入的解耦位置编码(RoPE)技术,也确保了数据压缩后能够保留必要的位置信息,从而进一步提升了推理速度和准确性。
这些技术突破预示着,未来的 AI 技术不仅能在顶级服务器上跑得飞快,还能轻松迁移到手机和平板等个人电子设备上。这意味着用户可以用较低的成本享受到堪比传统高性能硬件的 AI 服务,真正做到了技术的普及和平民化。
然而,尽管DeepSeek的潜力令人瞩目,但它也引发了一些担忧。例如,在测试中,DeepSeek-V3自称为ChatGPT,这让许多人开始质疑其训练数据是否涵盖了ChatGPT的内容。这一情况激起了关于模型独立性和数据透明性的广泛讨论。目前,DeepSeek还没有就此事发表正式回应,同样也突显了AI技术发展中透明化和规范化的重要性。OpenAI的Sam在X平台上似乎也对此事表达了一些看法。
在对Deepseek背后技术的深度剖析后,我们看到它为何在业界引起这么大的轰动:中国市场拥有全球最庞大的数据资源,但在硬件运算能力上由于多种因素受到限制,这促使中国的AI企业更加注重提升效率。DeepSeek的成功恰恰突显了资源与效能之间的新平衡。同时,随着Google、微软及Meta等科技巨头因AI训练的巨量耗电而开始投入核能,像DeepSeek这样的新兴企业则选择通过技术创新来减少资源浪费,为整个行业提供了新的解决思路。DeepSeek的故事提醒我们,未来AI的竞争不仅仅关乎技术本身,更需要在资源利用上寻找最优解,这可能是变革市场规则的关键所在。



