VASA-1 هو نموذج الذكاء الاصطناعي الجديد من Microsoft. تقنية مذهلة قادرة على إنشاء صور رمزية واقعية من مكونين بسيطين: صورة ثابتة ومقطع صوتي. إذا كنت مهتمًا بمعرفة المزيد عنها VASA-1 وصوره الرمزية الواقعية للغاية التي تم إنشاؤها بواسطة الذكاء الاصطناعي، نحن نشجعك على مواصلة القراءة.
يبدو أن ريدموند كان سيركز كل جهوده على تطوير هذا النوع من التكنولوجيا في المساعد مساعد طيار. أداة تجمع بين نماذج اللغة وتطبيقات Microsoft 365، لكن يبدو أن خططها أكثر طموحًا. تم العثور على دليل على ذلك في VASA-1.
ما هو فاسا-1؟
VASA هو اختصار لـ تطبيق المهارات البصرية العاطفية، وهو مفهوم يمكن ترجمته كـ تطبيق المهارات البصرية العاطفية. الرقم "1" هو إشارة واضحة إلى أن هذا هو الإصدار الأول فقط من قائمة طويلة من الإصدارات التي ستصل في المستقبل لتجعلنا أكثر دهشة.
ما الذي يجعل VASA-1 مميزًا جدًا؟ ما هو الابتكار الرئيسي الخاص بك؟ يوجد بالفعل العديد من التطبيقات القادرة على إضفاء الحيوية على الصور بحركات مشابهة لحركات GIF. ما تقدمه هذه الأداة التي أنشأها فريق من الباحثين في مجال الذكاء الاصطناعي من Microsoft Research Asia هو شيء أكثر تعقيدًا: نظام ذكاء اصطناعي يمكنه جعل الصور تغني وترقص. الأمر لا يتعلق بالرسوم المتحركة، بل بشيء آخر.
والنتيجة واقعية بشكل مدهش. واقعية مفرطة سيكون المصطلح الأنسب. يمكن لهذا النموذج إنتاج حركات شفاه متزامنة تمامًا مع الصوت، بالإضافة إلى التقاط مجموعة واسعة من الفروق الدقيقة في الوجه وحركات الرأس الطبيعية. وبشكل عام، فهو يقدم صورة حية وحقيقية لم يسبق رؤيتها من قبل في أدوات أخرى مماثلة.
بالإضافة إلى ذلك، تتيح الأداة أيضًا إنشاء مقاطع فيديو بحجم 512 × 512 عبر الإنترنت بمعدل يصل إلى 45 إطارًا في الثانية (أقل قليلاً إذا تم استخدامها في وضع عدم الاتصال) مع زمن انتقال أولي ضئيل. وهذا يمهد الطريق للتفاعلات في الوقت الحقيقي مع الصور الرمزية الواقعية التي يمكن الوصول إليها تقليد سلوكيات المحادثة البشرية.
VASA-1: بعض الأمثلة
توضح هذه الطريقة القدرة على التعامل مع ملفات الصور والصوت واسعة النطاق. وبالتالي يمكن إدراج صور فنية وحتى صوتيات من لغات مختلفة، وليس اللغة الإنجليزية فقط. في هذا المنصب قمنا بإدراجها بعض الأمثلة التي تتركنا عاجزين عن الكلام. من الصعب القول أن الوجوه التي تظهر وهي تتحدث وتشير في مقاطع الفيديو لا تتوافق مع وجوه الأشخاص الحقيقيين، ولكنها عبارة عن صور رمزية تم إنشاؤها من الصور والصوت:
يمكن لأي مستخدم لديه جهاز كمبيوتر متوسط الطاقة (على سبيل المثال، Nvidia RTX 4090 GPU) استخدام هذه الأداة لإنشاء مقاطع فيديو بهذا المستوى الواقعي في بضع دقائق فقط.
ومن المثير للإعجاب أن نرى كيف تجمع هذه الرسوم المتحركة بين الصور والصوت بشكل فعال، مما يمنح الرأس الناطق أمامنا درجة غير عادية من الواقعية. لكن، ويشير الخبراء إلى أنه لا تزال هناك أخطاء تكشف طبيعة هذه الصور المزيفة. التفاصيل غير محسوسة بالنسبة لمعظمنا، لكنها لا تفلت من أفضل المراقبين المدربين: بعض العيوب والعلامات الدقيقة التي تكشف عن تدخل الذكاء الاصطناعي.
مخاطر الأداة الدقيقة للغاية
هذه الأداة ممتازة جدًا وواقعية جدًا لدرجة أن Microsoft لم تجرؤ على اتخاذ خطوة إصدار حتى عرض تجريبي مفتوح. القلق ل سوء الاستخدام والمخاطر المحتملة التي قد تشكلها لسرقة الهوية ينصح بالتصرف بحذر شديد.
على أية حال، على الموقع الرسمي ل مشروع فاسا-1، المستضاف على موقع Microsoft، نجد مقطع فيديو مثيرًا للاهتمام مدته ما يزيد قليلاً عن دقيقة حيث يمكننا أن نشهد عملية إنشاء هذه الصور الرمزية شديدة الواقعية:
في الأساس، تتكون الطريقة من اختيار صورة (وجه بشري) ثم ملف صوتي. ثم "يتزوجهم" الذكاء الاصطناعي. أثناء عملية الإنشاء، يمكن للمستخدم تحديد العديد من الفروق الدقيقة من خلال الأزرار والأشرطة التي تظهر على الواجهة. ومن خلال استثمار القليل من الوقت والإبداع، يمكن تحقيق نتائج مؤثرة.
في الوقت الحالي، نوايا مطوري VASA-1 هي بالضبط عكس إنشاء مقاطع فيديو مزيفة ومخادعة (أو على الأقل هذا ما يقولونه). ذلك بالقول، المساعدة في اكتشاف ومكافحة مقاطع الفيديو وهمية عميقة. قد يكون هذا صحيحًا، حيث لا أحد يعرف أفضل منهم كيفية خداع العقل البشري من خلال أدوات الذكاء الاصطناعي القوية والدقيقة بشكل متزايد.
وعلى الرغم من ذلك، يصر مطورو VASA-1 أيضًا على تسليط الضوء الجوانب الأكثر إيجابية من إنشائها: تحسين إمكانية الوصول للأشخاص الذين يعانون من صعوبات في التواصل، وتقديم دعم الشركة أو الدعم العلاجي لأولئك الذين يحتاجون إليه وغيرها من المزايا المستمدة من الاستخدام المسؤول للذكاء الاصطناعي. والتحدي هو أن نجعل هذا ممكنا.