شركة DeepSeek الصينية للتكنولوجيا أطلقت مؤخرًا نموذج الذكاء الاصطناعي v3، ودون شك، يعد هذا النموذج واحدًا من أبرز النماذج المفتوحة المصدر في العام. هذا الابتكار أثار الكثير من الاهتمام والنقاش. لكن، في بعض الأحيان، يخطئ النموذج ويعرف نفسه باسم "ChatGPT"، مما أدى إلى اعتقاد البعض بأنه مجرد تقليد. نحن، كميديا تكنولوجية في هونغ كونغ، نرغب في تحليل أعمق لمعرفة لماذا استطاع هذا الذكاء الاصطناعي أن يهز الصناعة بهذه القوة. هذه المرة ليست مجرد حالة من التقليد بتكلفة منخفضة، فما هي النقاط التي تميز DeepSeek حقًا؟ علينا أن ننظر إلى الابتكارات التقنية وتحليلات البيانات التي جعلته يبرز في ميدان مزدحم بالمنافسين. من المهم أيضًا استكشاف كيفية تفاعل المستخدمين مع هذه الأدوات الجديدة وأي تأثيرات ملموسة قد تظهر على طرق استخدامنا للذكاء الاصطناعي في الحياة اليومية. هل انتُم جاهزون للغوص في هذا العالم الجديد؟
تأسست DeepSeek في عام 2023 من قبل صندوق الاستثمار الخاص الصيني "幻方量化"، وتركز بشكل مكثف على تطوير التقنيات المتقدمة للذكاء الاصطناعي. على الرغم من حداثة تأسيسها، استطاعت DeepSeek أن تبرز سريعًا كنجم في سماء التكنولوجيا بفضل ابتكاراتها المذهلة. الموديل DeepSeek-V3، والذي يحتوي على 671 مليار معامل، يُعتبر ثورة في مجال الأداء والتكلفة، مما يضع معيارًا جديدًا في الصناعة.
من المثير للإعجاب أن شركة DeepSeek تمكنت بتكلفة 5.57 مليون دولار فقط، خلال سنتين، من تطوير نموذج ذكاء اصطناعي فعال للغاية، وهذا يعتبر ميزة كبيرة في التكلفة مقارنة بموديل GPT-4 من OpenAI الذي كلف 63 مليون دولار. بل إن التقديرات تشير إلى أن ميزانية النموذج المستقبلي GPT-5 قد تصل إلى 500 مليون دولار. هذا الإنجاز يعود إلى دعم عدة تقنيات مبتكرة.
يعمل نموذج DeepSeek-V3 على تقليل الاحتياجات المتعلقة بموارد الحوسبة أثناء عملية الاستدلال بشكل فعال، وذلك يعود لتمتعه بما يُسمى ب"هيكلية الخبراء المختلطة". هذه الهيكلية تحتاج فقط إلى تفعيل 370 مليار مُعامل للقيام بالاستدلال، مما يخفض بشكل كبير من استهلاك موارد الحوسبة في الوقت الفعلي. في المقابل، النماذج الكاملة مثل GPT-4 عندما تُفعّل، غالبا ما تحتاج إلى استهلاك كميات هائلة من قدرات الحوسبة والذاكرة، وقد تصل الذاكرة المطلوبة لتشغيلها إلى عدة مئات من جيجابايتات.
لتعزيز الأداء بشكل أكبر، يجمع نظام DeepSeek-V3 تقنية الانتباه الكامن متعدد الرؤوس (MLA)، وهي تقنية قادرة على خفض الحاجة للذاكرة بشكل فعال عند معالجة النصوص الطويلة، مقللة استهلاك الموارد بنسبة تصل إلى 96٪. بالإضافة إلى ذلك، فإن تقنية الترميز الموضعي المنفصل (RoPE) المضافة تضمن أيضًا أن البيانات المضغوطة تحافظ على المعلومات الموضعية الضرورية، مما يعزز سرعة ودقة الاستنتاج.
هذه الاختراقات التكنولوجية تظهر أن تقنيات الذكاء الاصطناعي المستقبلية لن تقتصر على العمل بكفاءة عالية على الخوادم المتطورة فحسب، بل ستكون قابلة للتحويل بسهولة إلى الأجهزة الإلكترونية الاستهلاكية مثل الهواتف والأجهزة اللوحية. هذا يعني أن المستخدمين سيتمكنون من الاستمتاع بخدمات الذكاء الاصطناعي التي تضاهي أداء الأجهزة ذات الكفاءة العالية بتكلفة منخفضة، مما يحقق حقًا تقنيات السوق الشاملة.
على الرغم من الإمكانيات الهائلة التي يمتلكها DeepSeek، إلا أنه أثار أيضًا بعض المخاوف. مثلاً، في الاختبارات، ادعى DeepSeek-V3 أنه ChatGPT، مما دفع العديد من الأشخاص إلى التساؤل عما إذا كانت بيانات تدريبه تحتوي على محتوى من ChatGPT. هذا الوضع أثار نقاشًا حول استقلالية النماذج وشفافية البيانات. حتى الآن، لم يصدر القائمون على DeepSeek بيانًا رسميًا بشأن هذا الأمر، مما يبرز أهمية تكريس المزيد من الشفافية والتنظيم في تطوير التقنيات الذكية. على ما يبدو، عبر Sam من Open AI عن بعض آرائه حول هذا الموضوع على منصة X.
بعد تحليل معمق للتكنولوجيا المستخدمة في DeepSeek، استطعنا أن نرى لماذا أثارت ضجة كبيرة في الصناعة: السوق الصيني يمتلك أكبر موارد البيانات عالميًا، لكنه يواجه قيودًا عديدة في قدرات الحوسبة الأساسية، مما دفع الشركات الصينية العاملة في مجال الذكاء الاصطناعي للتركيز أكثر على تعزيز الكفاءة. نجاح DeepSeek يبرز توازنًا جديدًا بين الموارد والكفاءة. في الوقت نفسه، مع بدء عمالقة التكنولوجيا مثل جوجل، مايكروسوفت، وميتا بالرهان على الطاقة النووية بسبب الكميات الهائلة من الطاقة التي تستهلكها تدريبات الذكاء الاصطناعي، تختار شركات ناشئة مثل DeepSeek اعتماد الابتكار التكنولوجي لتقليل الهدر في الموارد، مقدمة بذلك منهجيات جديدة لحل المشكلات في الصناعة. قصة DeepSeek تذكرنا أن منافسة مستقبل الذكاء الاصطناعي لن تقتصر فقط على التكنولوجيا ذاتها، بل ينبغي أيضًا البحث عن أفضل الحلول لاستغلال الموارد، وهذا قد يكون المفتاح لتغيير قواعد اللعبة في السوق.



