OpenAI’s Sora هو لغز كامل

يعد برنامج جديد من صانع ChatGPT بإنشاء مقاطع فيديو من مطالبات نصية بسيطة، ولكن لا يُعرف سوى القليل عن كيفية عمله فعليًا.

أحد مقاطع الفيديو النموذجية لـ Sora الصادرة عن OpenAI. تم إنشاء المشهد بأكمله بواسطة الذكاء الاصطناعي. (مجاملة OpenAI)

بعد ظهر أمس، أثارت OpenAI التشويق سورا، وهو نموذج لتوليد الفيديو يعد بتحويل مطالبات النص المكتوبة إلى مقاطع فيديو واقعية للغاية. اللقطات التي نشرتها الشركة يصور أمثلة مثل “كلب شيبا إينو يرتدي قبعة وياقة مدورة سوداء” و”في قاعة تاريخية مزخرفة، تصل موجة مد هائلة إلى ذروتها وتبدأ في الانهيار.” تُذكِّرنا الإثارة التي أحدثتها الصحافة بالضجة التي أحاطت بمنشئ الصور DALL-E أو ChatGPT في عام 2022: وُصِف سورا بأنه “ملفتة للنظر“””تغيير العالم,” و “لالتقاط الأنفاس، ولكن مرعبة“.

الصور مثيرة للإعجاب حقا. في لمحة، أحد الأمثلة على “الوحش الرقيق” المتحرك تبدو أفضل من شريك; “المتطرف قرب“إن عين المرأة، مع انعكاس المشهد أمامها، نابضة بالحياة بشكل مذهل. لكن سورا أيضًا يكتنفه الغموض. لا يمكن لأي شخص خارج مجموعة مختارة من مختبري السلامة والفنانين المعتمدين من OpenAI استخدام البرنامج حتى الآن (على الرغم من أن سام ألتمان، الرئيس التنفيذي للشركة، كان مع الأخذ سورا الطلبات السريعة على وسائل التواصل الاجتماعي و نشر ال نتائج). يمكن للنموذج أن يحقق الأوهام التي يطفوها الناس بالفعل. ربما سيكون خيال محرك سينمائي ثورة، أو أ معلومات خاطئة آلة. لكن في الوقت الحالي، من الأفضل النظر إلى الأمر على أنه استفزاز أو حملة إعلانية.

على الرغم من أن العديد من هذه المنتجات تم تصنيعها بالقوة الكافية لقلب مفهومنا للعالم – أو تدميره تمامًا – فإن الشركات مثل OpenAI لا تميل إلى تفصيل أعمالها الداخلية. (أعطت دراسة حديثة عشر شركات تكنولوجية كبرى، بما في ذلك OpenAI، درجة فاشلة في مؤشر شفافية الذكاء الاصطناعي). مراجعة تكنولوجيا معهد ماساتشوستس للتكنولوجيا تم منحها معاينة لنماذج مقاطع الفيديو التي أنشأتها شركة Sora فقط بعد الموافقة على ما أطلق عليه الصحفيون اسم ” حالة “غير عادية”. وأنهم لن يبحثوا عن آراء خارجية إلا بعد إعلان OpenAI عن المنتج؛ في البداية، لم تكن هناك ورقة بحثية مصاحبة للإصدار.

التقرير الفني الذي OpenAI في وقت لاحق نشرت يحتوي على أوصاف مختصرة وعامة متناثرة في التفاصيل الفنية. هذا بعيد عن النموذج الأول لتحويل النص إلى فيديو (كشفت Meta عن واحدة في سبتمبر 2022، قبل حوالي شهرين من إصدار ChatGPT)، ولكن في الوقت الحالي، بدون قدرة الأشخاص خارج الشركة على دراسة Sora أو اختباره، فإن معرفة كيفية الاعتماد على المنتجات السابقة أو مقارنتها بها أمر مستحيل. ما هو واضح من التقرير هو أنه، على غرار نماذج اللغة الخاصة بالشركة الناشئة، كلما زادت قوة الحوسبة التي ضختها OpenAI في Sora، أصبحت جودة مخرجاتها أعلى – حيث تتحول فقاعة من الفراء إلى جرو واقعي ورائع عند توليدها باستخدام 16 لغة. أضعاف الموارد. وبعيدًا عن أي اختراق تكنولوجي، قد يكون سورا هو النتيجة الأحدث، وربما الأكثر إثارة، لمليارات الدولارات الموجودة في خزائن OpenAI، وهو انتصار على نطاق واسع بقدر ما هو انتصار للابتكار.

أخبرني متحدث باسم OpenAI في بيان مكتوب أن الشركة “تشارك التقدم الذي أحرزناه في أبحاثنا مبكرًا لبدء العمل مع أشخاص خارج OpenAI والحصول على تعليقات منهم ولإعطاء الناس فكرة عن قدرات الذكاء الاصطناعي التي تلوح في الأفق”. عند سؤاله عن بيانات التدريب، لم يحدد المتحدث إلا أن النموذج تم تدريبه على “المحتوى المرخص والمتاح للجمهور”؛ وعندما سُئلت عن الأضرار المحتملة، قالت إن الشركة لا تزال تعمل على معالجة “المعلومات الخاطئة والمحتوى الذي يحض على الكراهية والتحيز”.

OpenAI ليست وحدها في سريتها. بالأمس أيضًا، أعلنت جوجل عن نسخة محدثة من نموذج اللغة الرئيسي الخاص بها، Gemini 1.5، وأشادت به باعتباره “اختراق“. ولكن لن يتمكن أي شخص بخلاف مجموعة صغيرة من المطورين والعملاء من الشركات الكبرى من اختبار قدراته الأكثر تقدمًا. يتم أيضًا إصدار الكثير من منتجات الذكاء الاصطناعي الأخرى دون الكثير من المعلومات المصاحبة.

ومع ذلك، نحن نعلم أن العروض التوضيحية لمنتجات الذكاء الاصطناعي تميل إلى احتواء عيوب، بعضها بسيط وبعضها محرج، وسورا ليس استثناءً. باعتراف شركة OpenAI نفسها، فإنها تكافح في تصوير الفيزياء والسبب والنتيجة (تقول الشركة أنك قد تطلب مقطع فيديو لشخص يقضم ملف تعريف الارتباط، فقط لتلاحظ أنه لم يتم ترك أي علامة قضمة)، وتفاصيل بسيطة أخرى ( يظهر رجل وهو يركض في الاتجاه الخاطئ على جهاز المشي). وقد كشف محققو الإنترنت عن إخفاقات أخرى، مثل الكائنات المختفية و أيدي مشوهة. ومع ذلك، يبدو المنتج مذهلًا – الأمر الذي، على الرغم من كل الإثارة، يثير مخاوف مألوفة للغاية ولكنها خطيرة بشأن التزييف العميق، وانتهاك حقوق الطبع والنشر، وسبل عيش الفنانين، والتحيزات الخفية، والمزيد.

وفي الوقت نفسه، يعج الإنترنت بنظريات وملاحظات المصورين: التخمينات حول كيفية عمل سورا؛ تلميحات إلى أن سورا لا يولد أشياء جديدة ولكن نسخ مقاطع الفيديو الموجودة؛ تظهر المقارنات التشابه بين مقاطع الفيديو الخاصة به ومخرجات نموذج تحويل النص إلى الصورة الرائد. في الوقت الحالي، لا يمكن الجزم بأن هذه المخاوف صحيحة أو خاطئة. لا يزال الجمهور بالكاد يفهم طريقة العمل الداخلية لـ DALL-E وChatGPT، ولكن يمكننا على الأقل اختبار قدرات هذه المنتجات بأنفسنا؛ مع إعلان سورا، دخلت OpenAI إلى عالم صناعة الأساطير.

ظهرت في الأصل على www.theatlantic.com

Leave a Comment