شركة DeepSeek ومستقبل الذكاء الاصطناعى

 وفقًا لما توصل إليه "أليكس ويلكينز"، فى هذا المقال، فإن نجاح شركة DeepSeek الصينية، يشير إلى أن شركات التكنولوجيا قادرة على تدريب وتشغيل الذكاء الاصطناعى القوى دون استهلاك كميات هائلة من الطاقة. 


منذ بدايات طفرة الذكاء الاصطناعى، طالب رؤساء شركات التكنولوجيا فى الولايات المتحدة، بتوسع هائل لمراكز البيانات وللبنية الأساسية من أجل دعم المزيد من التقدم ولاستيعاب التكنولوجيا الحديثة. 

الآن، تتحدى الصدمة التى أحدثتها شركة DeepSeek الصينية هذه النظرة. حيث يعتقد الكثيرون فى الصناعة أن تقدم DeepSeek قد يؤدى إلى تغييرات جذرية في طريقة تطوير مثل هذه النماذج واستخدامها، فضلاً عن توفير كبير فى الطاقة وتقليل العبء المناخى. فهل هم على حق؟

مثل نموذج R1 من DeepSeek صدمة كبرى ولغزا لكل شركات الذكاء الاصطناعى الأمريكية. 

كيف تمكن فريق مكون من بضع مئات من الباحثين بميزانية تبلغ عدة ملايين من الدولارات من إنتاج نموذج يحاكى OpenAI وأفضل مما لدى Google، مع أطقمها المكونة من عدة آلاف وميزانياتها التى تبلغ مليارات الدولارات؟ 

يقول "آرثر جارسيز" من City St George’s، من جامعة لندن، إن السر لم يكمن فى مكون سحرى واحد، بل مزيج من الحيل الهندسية الذكية التى كانت معروفة بالفعل ولكن بشكل فردى.

إحدى أكثر الطرق نجاحاً فى تدريب الذكاء الاصطناعى هى ما يطلق عليها "التعلم التعزيزى"، حيث يُظهر الباحثون للذكاء الاصطناعى كيف يبدو النجاح ويتركونه ليكتشف وحده القواعد باستخدام شكل من أشكال التجربة والخطأ. كان هذا مفتاحاً لإنجازات Google DeepMind مع أنظمة الذكاء الاصطناعى فى مجالى الشطرنج وطى البروتينات. ومع ذلك، فلقد وجد الباحثون صعوبة اكبر فى تطبيق هذه الطريقة على نماذج اللغة الكبيرة، حيث يكون النجاح أقل وضوحاً.

وعلى الرغم من أن نماذج GPT من OpenAI تستخدم شكلاً من أشكال التعلم التعزيزى، حيث يتم إعطاؤها ملاحظات حول الإجابات التى يفضلها الناس، فإن هذا ليس فى الواقع تعلماً تعزيزياً حقيقياً. 

فى حالة R1 من DeepSeek تم أولاً  تدريبه ،طعلى كميات هائلة من النصوص من الإنترنت، مثل نماذج GPT ولكن بعد ذلك تم تركه ليستكشف كيفية التفكير بمفرده باستخدام التعلم التعزيزى الفعلى، دون الحاجة إلى إشراف بشرى.

لتحقيق ذلك، ركز مهندسو DeepSeek على تطبيق التعلم التعزيزى على مشكلات يمكنهم من خلالها تحديد إجابات واضحة، مثل تلك الموجودة فى الرياضيات والبرمجة، كما جعلوا النموذج ينتج العديد من الإجابات فى وقت واحد بحيث يمكن مقارنتها مع بعضها. بعد ذلك فقط قاموا بعرض أمثلة تم حلها مسبقا بواسطة البشر على النموذج من أجل تحسين قدراته فى مجالات أخرى.

بعد القيام بتدريب النموذج بهذه الطريقة، استطاع باحثو DeepSeek ايجاد طريقة لنقل قدراته الاستدلالية إلى نماذج أصغر مفتوحة المصدر تم تدريبها مسبقًا، فى خطوة أسموها "التقطير". 

يقول "جارسيز" إن هذه المرحلة من العملية هى السبب الرئيسى الذى جعل الكثيرين يشككون فى مدى حاجة شركات التكنولوجيا الأمريكية حقيقة، إلى تلك القدرة الحاسوبية الهائلة التى تدعيها.

يقول "جارسيز": "لقد بالغت شركة OpenAI وبعض منافسيها بشدة فى التوسع، فى حين أن ما نراه من خلال عملية التقطير، تظهر عدم وجود سببًا كافيًا حقًا لمثل هذا التوسع".

لذلك فإذا كانت شركات التكنولوجيا تحتاج قوة حوسبة أقل لتدريب النماذج، فقد يعنى هذا أن الذكاء الاصطناعى لن يكون ضارًا بالبيئة كما هو الحال حاليًا، وأن خططًا من قبيل مشروع البنية التحتية للذكاء الاصطناعى بقيمة 500 مليار دولار، التى يجرى الترويج لها فى الولايات المتحدة، ليست ضرورية.

ولكن شركات التكنولوجيا الأميركية سارعت إلى التصدى لهذا. فقد نشر "ساتيا ناديلا"، الرئيس التنفيذى لشركة "مايكروسوفت"، التى تمتلك حصة كبيرة فى شركة OpenAI، على موقع "X" أنه "مع تزايد كفاءة الذكاء الاصطناعى وسهولة الوصول إليه، فسنرى أن استخداماته سترتفع بشكل كبير، مما يحوله إلى سلعة ذات سعة غير محدودة".

من ناحية أخرى، تقول "ميريلا لاباتا" من "جامعة إدنبرة" بالمملكة المتحدة: "إذا تحدثت إلى الرؤساء التنفيذيين، فسوف تجد أنهم مضطرون إلى الترويج بقوة لمثل هذه الأفكار، ويتعين عليهم أن يغذوا التوقعات بأن الذكاء الاصطناعى سيحتاج إلى كل مراكز البيانات تلك. ولكن إذا كان بإمكانى تشغيل هذه الأشياء على جهاز الكمبيوتر الخاص بى، على وحدة معالجة رسومية واحدة، فلماذا أدفع لشركة OpenAI مقابل القيام بأى شيء؟"

ومع ذلك، فإن هناك جانبًا آخر من نموذج R1 الخاص بشركة DeepSeek والذى قد يؤدى بالفعل لزيادة متطلبات الطاقة للذكاء الاصطناعى.

ذلك أنه مثل نماذج الاستدلال o1 الخاصة بشركة OpenAI، فإنه يستخدم طريقة تسمى تسلسل التفكير، حيث "يفكر الذكاء الاصطناعى بصوت عالٍ" ويظهر  طريقه عمله عند الاستجابة.

وجد الباحثون أن هذه الطريقة يمكنها تحسين أدائه فى بعض مهام الرياضيات والترميز. ولكن إذا بدأ المزيد من الأشخاص فى استخدام أدوات الذكاء الاصطناعى التى تتبع هذه الطريقة، فقد يؤدى ذلك إلى زيادة الحاجة والتكلفة الحسابية، كما يتوقع "ناديلا".

إن وقت التفكير فى DeepSeek مقسم بين العديد من الأنظمة الفرعية المتخصصة في مجالات مختلفة، مثل الرياضيات أو الترميز، فيما يُعرف بنموذج مزيج الخبراء. ويقول "نيكوس أليتراس" من جامعة شيفيلد بالمملكة المتحدة إن هذا سيؤدى إلى الحاجة إلى طاقة حسابية أقل من استخدام النموذج بأكمله. كما يقول "أليتراس" إن الغالبية العظمى من الطلبات قد لا تحتاج إلى نماذج "التفكير" الأكثر كثافة حسابيًا، مما سيؤدى إلى انخفاض تكاليف الطاقة الإجمالية. "لأنه إذا كان على أن أشرح لك كل إجابة على حدة، فلن ننهى هذا الاجتماع أبدًا". "فى بعض الأحيان [تكون سلسلة الأفكار] مفيدة ... ولكن إذا طرحت سؤالاً مباشرًا للغاية، فلن أحتاج إليه هناك".

في النهاية، سيعتمد مدى تأثير ابتكارات DeepSeek على صناعة الذكاء الاصطناعى واستهلاكها للطاقة على ما إذا كانت شركات التكنولوجيا الأمريكية قادرة على إظهار أن نهجها يحقق نتائج اكثر نجاحا. 

ولكن مع قدرة العملاء على استخدام DeepSeek R1 بأقل عشرين مرة من تكلفة نماذج مثل OpenAI's o1، فإن الفارق فى الجودة يجب أن يكون كبيرًا للغاية. 

يقول "لاباتا": "إذا لم يكن علينا أن ندفع، فلماذا ندفع؟ وهذا يعنى أن استهلاك الطاقة ربما سيصبح أقل فعليًا".■

تعليقات

المشاركات الشائعة من هذه المدونة

هل نحن اذكى مما ينبغى؟

كم أفتقدك - "بقلم: حازم فرجانى"

الأنبياء - قصة قصيرة