ما هو Q-star وما يمكن أن يعنيه لمستقبل الذكاء الاصطناعي • Arabic-Science

التطورات الحديثة في مجال الذكاء الاصطناعي، وخاصة حول خوارزمية جديدة تسمى “Q*”، أثارت اهتمامًا كبيرًا في مجتمع تعلم الآلة. نشأ هذا الاهتمام في ظل تغييرات كبيرة في OpenAI، مميزة بالخروج المثير للجدل للرئيس التنفيذي سام ألتمان وشائعات تلمح إلى اختراق هام في مجال الذكاء الاصطناعي، يقترب بشكل محتمل من الذكاء العام الاصطناعي (AGI). في هذه المقالة، سنشرح ما هو Q-star، ولماذا هو أمر كبير، وكيف يمكن أن يغير مستقبل الذكاء الاصطناعي. في الواقع، فإن المعلومات حول Q* ليست مستندة إلى ورقة أو منتج من OpenAI وإنما هي نتيجة لأبحاث مجتمع الذكاء الاصطناعي.

ما هو Q-star (Q*)؟

يعتقد بعض باحثي الذكاء الاصطناعي أن Q* هو توليف لخوارزمية A* (خوارزمية للتنقل/البحث) وتعلم Q (نظام تعلم تعزيزي) يمكن أن يحقق دقة لا تشوبها شائبة في اختبارات الرياضيات التي لم تكن جزءًا من بيانات تدريبه دون الاعتماد على مساعدات خارجية. قد لا يبدو هذا مذهلاً لأن الكمبيوترات تم تصميمها لتكون جيدة في الرياضيات، ولكن هناك سبب يجعل علماء OpenAI قلقين ربما بسبب Q*. تحقق الخوارزمية من دقة 100% في حل مشكلات الرياضيات، متفوقة على معايير الأداء لنماذج مثل GPTs.

النماذج الحالية الكبيرة للغة تكون رائعة في المهام المتعلقة باللغة مثل الترجمة أو الخلاصات ولكنها ليست جيدة في المنطق الرياضي والاستراتيجية. إنها تعتمد بشكل كبير على بيانات التدريب ويمكن اعتبارها “مكررات معلومات”. من ناحية أخرى، يُقال إن Q-star تُظهر منطقًا رائعًا واستراتيجية طويلة الأمد. يمكن أن يكون هذا الخطوة الرياضية الكبيرة التالية نحو ثورة في البحث العلمي. يمتد النقاش حول Q* إلى خارج مجال تعلم الآلة، ويلامس جوانب العلوم العصبية والهندسة العقلية، مما يشير إلى أنه قد يكون أكثر من مجرد إنجاز تقني بل قد يكون اختراقًا هامًا في بحث الذكاء الاصطناعي ويشكل قلقًا محتملًا للإنسانية.

على الرغم من أن هذا يبدو وكأنه تقدم علمي رائع، فقد يكون هو السبب وراء الأحداث المزعجة في OpenAI التي جعلت المجلس - آدم دي أنجيلو، توشا مكولي، إيليا سوتسكيفير، وهيلين تونر - يقومون بإقالة سام ألتمان وتوظيفه مرة أخرى في بضعة أيام فقط.

لماذا Q-star مرعبة جدًا؟

ليس سرًا أن التطورات السريعة في مجال الذكاء الاصطناعي قد تثير مخاوف أخلاقية كبيرة. يقال إن الرسالة من باحثي OpenAI تُظهر قلقًا حيال التقدم السريع للنظام، ربما يرونه “تهديدًا للإنسانية”. لفهم ذلك بشكل أفضل، دعونا نتحدث عن الذكاء الاصطناعي العام.

الذكاء الاصطناعي العام (AGI)

الذكاء الاصطناعي العام (AGI) هو مفهوم يشير إلى نوع محدد من أنظمة الذكاء الاصطناعي التي تستهدف تحقيق مستوى عالٍ من القدرات الفكرية الشاملة والتي يمكن مقارنتها بالقدرات العقلية البشرية. في حين أن الذكاء الاصطناعي الضيق يستهدف أداء مهام محددة بشكل محدود، يهدف AGI إلى القدرة على التفكير وفهم العالم بشكل شامل، مما يمكنه من أداء مجموعة متنوعة من المهام بمثابة إنسان.

ملامح AGI تشمل القدرة على التعلم من التجارب والتفاعلات، فهم السياقات المعقدة، اتخاذ قرارات تفكيرية تحت الغموض، وحتى التكيف مع المواقف والبيئات الجديدة. يهدف AGI إلى تجاوز قيود الذكاء الاصطناعي الضيق الذي يكون محدودًا بأداء مهمة أو مجموعة محددة من المهام.

هذا النوع من الذكاء الاصطناعي يُنظر إليه كمرحلة تطورية مهمة في مجال الذكاء الاصطناعي، حيث يفترض أن تحقيق AGI سيفتح الباب أمام تطبيقات هائلة وتحولات على مستوى متقدم في مجالات متنوعة مثل الطب، العلوم، الاقتصاد، والروبوتات. ومع ذلك، يتطلب تحقيق AGI تحديات هائلة ومعقدة في مجالات مثل فهم اللغة الطبيعية، والتعلم العميق، وتفهم السياق البشري بشكل شامل.

A* وتعلم Q

لفهم مفاهيم A* وتعلم Q، دعونا نتخيل مشكلة الملاحة من الحالة الحالية إلى الحالة الهدف - ليس في الفضاء الفعلي، ولكن في بيئة وكيل ذكاء صناعي. يتضمن هذا العملية التخطيط واتخاذ القرارات، حيث يحتاج الوكيل إلى وظائف إدراكية مثل التفكير في الخطوات أو وظائف التقييم. بناءً على الحالة الحالية والمشكلة التي نريد حلاً لها، يشمل التفكير في الخطوات استخدام استراتيجيات التحفيز مثل شجرة الفكر (ToT) وسلسلة الفكر (CoT).

فهم هذه المفاهيم سيساعد أيضًا في فهم أفكار A* وتعلم Q - كلتاهما أساسيتان في سلوكيات الذكاء الاصطناعي الموجهة نحو الهدف واتخاذ القرارات.

ما هو A*؟

خوارزمية البحث A* هي أداة قوية تستخدم في علم الحاسوب للعثور على المسار الأكثر كفاءة بين نقطتين. إنها مفيدة خاصة في حالات وجود مسارات ممكنة كثيرة، مثل في شبكة الطرق أو خريطة لعبة. تعمل A* عن طريق استكشاف مسارات مختلفة، حساب تكلفة كل مسار بناءً على عوامل مثل المسافة وأي عقبات، ثم استخدام هذه المعلومات لتوقع أكثر مسار فعّال إلى الهدف. يستند هذا التوقع إلى استراتيجية تقديرية، وهي وسيلة لتقدير المسافة من أي نقطة على الخريطة إلى الوجهة. مع تقدم A*، يقوم بتنقيح خيارات المسار حتى يجد الطريق الأكثر فعالية، محققًا التوازن بين استكشاف مسارات جديدة وتوسيع المسارات المعروفة. وهذا يجعل A* فعّالة للغاية في مهام مثل الملاحة بواسطة نظام تحديد المواقع GPS، وذكاء اللعبة لحركة الشخصية، وحل الألغاز المعقدة.

منطق A* في نماذج اللغة تكون معقدة إلى حد ما. على الرغم من أن النماذج الإنشائية لا تلاحق الفضاءات الفعلية، إلا أنها تجتاز معلومات معقدة للعثور على الردود الأكثر صلة للموضوع المعطى. هنا تأتي Q-learning إلى الصورة.

ما هو Q-learning؟

تعتبر Q-learning طريقة في تعلم الآلة حيث يتعلم ‘الوكيل’ اتخاذ قرارات أو اتخاذ إجراءات تؤدي إلى أفضل نتيجة ممكنة في حالة معينة. تتضمن هذه التقنية جزءًا من تعلم التعزيز، الذي يتعلق بالتعلم من خلال التفاعلات مع البيئة.

في Q-learning، ‘Q’ تشير إلى ‘الجودة’، وهي تشير إلى قيمة أو فائدة اتخاذ إجراء معين في حالة معينة. يتم مكافأة الوكيل على الأفعال الجيدة وتجريمه على الأفعال السيئة. من خلال التجارب المتكررة والتعلم من هذه المكافآت والعقوبات، يفهم الوكيل تدريجياً أفضل سلسلة من الأفعال لتحقيق هدفه.

على سبيل المثال، إذا كنت تعلم روبوتًا على الملاحة في متاهة، سيتضمن تعلم Q استخدام مسارات مختلفة والتعلم من كل محاولة. يتتبع الروبوت الإجراءات التي أدت إلى النجاح (مثل التحول يمينًا، يسارًا، أو التحرك للأمام) في أجزاء مختلفة من المتاهة. مع الوقت، يتعلم الروبوت الطريقة الأكثر فعالية للخروج.