OpenAI تكشف النقاب عن Sora، وهو نموذج ذكاء اصطناعي جديد لتحويل النصوص إلى مقاطع فيديو

OpenAI، الشركة التي تقف وراء… ChatGPTأعلنت عن أول نموذج لتحويل النص إلى فيديو مدعوم بالذكاء الاصطناعي (AI) Sora، وتدعي الشركة أنها تستطيع إنشاء مقاطع فيديو تصل مدتها إلى 60 ثانية، وهي أطول من جميع منافسيها في هذا القطاع، بما في ذلك منافسي جوجل. لوميير الذي تم الكشف عنه الشهر الماضي.

يتوفر Sora حاليًا لأعضاء الفريق الأحمر وخبراء الأمن السيبراني الذين يقومون باختبار البرامج على نطاق واسع لمساعدة الشركات على تحسين برامجها وبعض منشئي المحتوى، بينما تخطط شركة الذكاء الاصطناعي أيضًا لإطلاق Coalition for Content Provenance and Authenticity (C2PA) في المستقبل يتضمن البيانات الوصفية . يتم استخدام النموذج في منتج OpenAI.

الإعلان عن مولد الفيديو بتقنية الذكاء الاصطناعي في منشور على

ومن المثير للاهتمام أن طول الفيديو الذي تدعي أنه ينتجه يزيد عن عشرة أضعاف ما يقدمه منافسوها. يستطيع Lumiere من Google إنشاء مقاطع فيديو مدتها 5 ثوانٍ، بينما يمكن لـ Runway AI وPika 1.0 إنشاء مقاطع فيديو مدتها 4 ثوانٍ و3 ثوانٍ على التوالي.

الذكاء الاصطناعي المفتوح.

وبحسب الشركة، يمكنها إنشاء مشاهد معقدة بشخصيات متعددة، وزوايا كاميرا متعددة، وأنواع محددة من الحركات، وتفاصيل دقيقة للموضوع والخلفية. وهذا ممكن لأن نموذج تحويل النص إلى فيديو يستخدم كلاً من المتجه والخلفية. “كيف توجد هذه الأشياء في العالم المادي.”

Sora هو في الأساس نموذج انتشار يستخدم بنية محولات مشابهة لنماذج GPT. وبالمثل، فإن البيانات التي تستهلكها وتولدها يتم تمثيلها في مصطلح يسمى التصحيحات، والتي تشبه مرة أخرى الرموز المميزة في نماذج إنشاء النص. التصحيحات عبارة عن مجموعات من مقاطع الفيديو والصور، مجمعة في أجزاء صغيرة كما هو محدد من قبل الشركة.

باستخدام هذه البيانات المرئية، أتاحت OpenAI تدريب نموذج إنشاء الفيديو على فترات ودرجات دقة ونسب عرض إلى ارتفاع مختلفة. بالإضافة إلى إنشاء تحويل النص إلى فيديو، يستطيع Sora أيضًا التقاط صورة ثابتة وتحويلها إلى فيديو.

ومع ذلك، فهو أيضًا لا يخلو من العيوب، حيث تذكر شركة OpenAI على موقعها الإلكتروني أن “النموذج الحالي به نقاط ضعف. وقد يواجه صعوبة في محاكاة فيزياء مشهد معقد بدقة، وقد لا يفهم حالات محددة من السبب والنتيجة، على سبيل المثال، يمكن لأي شخص أن يأخذ… يا لها من قضمة من البسكويت، ولكن لا ينبغي أن تكون هناك علامة قضمة على البسكويت.

ولضمان عدم استخدام أداة الذكاء الاصطناعي لإنشاء محتوى عميق أو أي محتوى ضار آخر، تعمل الشركة على إنشاء أدوات للمساعدة في اكتشاف المحتوى المضلل، وتخطط أيضًا لاستخدام البيانات الوصفية لـ C2PA في مقاطع الفيديو التي تم إنشاؤها، بعد أن تولت ممارسة دال. الموديل E 3. مؤخرًا.

كما أنها تعمل مع أعضاء الفريق الأحمر، وخاصة خبراء المجال في مجال المعلومات المضللة ومحتوى الكراهية والتحيز، لتحسين النموذج، وفي الوقت الحالي هو متاح فقط لأعضاء الفريق الأحمر وعدد صغير من الفنانين التشكيليين والمصممين وصانعي الأفلام ردود الفعل على المنتج.

Leave a Comment