آخر الأخبار
بايت دانس تكشف عن نموذج ذكاء اصطناعي لتحويل الصور الثابتة إلى مقاطع فيديو واقعية

أعلنت شركة بايت دانس، المالكة لتطبيق تيك توك الشهير، عن إطلاق نموذج ذكاء اصطناعي جديد يحمل اسم INFP. هذا النموذج الثوري يتيح للمستخدمين تحويل الصور الشخصية الثابتة إلى مقاطع فيديو حية يظهر فيها الأشخاص كما لو كانوا يتحدثون ويتفاعلون مع المداخلات الصوتية، مما يوفر تجربة تفاعلية وفريدة من نوعها.
ما هو نموذج INFP؟
نموذج INFP هو أحد أحدث الابتكارات في مجال الذكاء الاصطناعي، الذي يعمل على تحويل الصور الثابتة إلى مقاطع فيديو تُظهر الأشخاص في مواقف تفاعلية حية. ما يميز هذا النموذج عن غيره هو قدرته على إنشاء محادثات واقعية بين شخصين دون الحاجة لتحديد أدوار التحدث أو الاستماع يدويًا، بل يعتمد على تحليل تدفق المحادثة وتحديد الأدوار تلقائيًا.
العملية الثنائية لتحويل الصور الثابتة إلى فيديو
يتكون نموذج INFP من مرحلتين رئيسيتين، الأولى تشمل تقليد حركات الرأس وتحويل الصور الثابتة إلى صور متحركة من خلال تعابير الوجه وحركات الرأس التي يتم التقاطها من مقاطع الفيديو. ثم يتم تحويل هذه الحركات إلى بيانات تُستخدم لتحريك الصور الثابتة بشكل واقعي.
أما المرحلة الثانية، فتتضمن إنشاء الحركات بناءً على الصوت، حيث يقوم النظام بتحليل المدخلات الصوتية لتوليد أنماط حركة طبيعية للشخص المتحدث والمستمع، مع تعديل هذه الأنماط لتتناسب بدقة مع الصوت والتفاعل بشكل واقعي مع المواقف.
قاعدة بيانات DyConv: مفتاح الدقة في النتائج
لضمان دقة عالية وجودة محسّنة في التفاعل، طوّرت بايت دانس قاعدة بيانات جديدة تسمى DyConv، التي تضم أكثر من 200 ساعة من المحادثات الحقيقية التي جُمعت من الإنترنت. وتهدف هذه القاعدة إلى توفير نطاق واسع من المشاعر الإنسانية، مما يسمح للنموذج بتوليد صور واقعية مع تعبيرات وجه وحركات دقيقة مقارنة بقواعد بيانات أخرى مثل ViCo و RealTalk.
تفوق INFP على التقنيات السابقة
أكدت بايت دانس أن نموذج INFP يتفوق على التقنيات الحالية من حيث مطابقة حركة الشفاه مع الصوت، بالإضافة إلى قدرته على الحفاظ على ملامح الوجه الطبيعية بشكل أفضل، وإنشاء حركات واقعية للشخص أثناء الاستماع. وهذا التفوق يعزز من قدرة النموذج على إنشاء مقاطع فيديو واقعية لصور ثابتة، مما يفتح المجال أمام تطبيقات متعددة في مجال الإنتاج الإعلامي.
الخطط المستقبلية لتطوير النموذج
بايت دانس لا تقتصر على استخدام الصوت فقط في نموذج INFP، بل تسعى إلى تطوير النموذج ليعمل مع النصوص والصور كذلك، بالإضافة إلى تطوير تقنيات لتحريك الجسم بأكمله وليس الرأس فقط. ورغم هذه الإمكانيات المذهلة، فإن الشركة تدرك المخاطر المتعلقة بـ إساءة استخدام هذه التقنية، ولذلك قررت حصر استخدامها في البحوث الأكاديمية في المرحلة الحالية.
الفرص المستقبلية في تطبيقات بايت دانس
يُعد نموذج INFP جزءًا من استراتيجية بايت دانس المتكاملة في تطوير الذكاء الاصطناعي. ومن المتوقع أن تستفيد تطبيقات تيك توك وCapCut التابعة للشركة من هذه التقنية المتقدمة، حيث قد تتيح للمستخدمين إنشاء مقاطع فيديو تفاعلية بطريقة مبتكرة وسريعة. يمكن أن تكون هذه التطبيقات منصات مثالية لتوظيف هذا النموذج الجديد، مما سيُعزز من قدراتها في تحرير الفيديو وإنشاء محتوى مرئي أكثر تفاعلًا.
بايت دانس تبهر العالم مجددًا بتقنيات مبتكرة في مجال الذكاء الاصطناعي مع إطلاق نموذج INFP الذي يفتح الأفق لتطبيقات جديدة في عالم الفيديو الرقمي. ومع تطور هذه التقنيات، من المحتمل أن نرى مستقبلًا حيث يمكن لأي صورة ثابتة أن تصبح جزءًا من محادثة حية واقعية، مما يغير تمامًا من طريقة تفاعلنا مع المحتوى الرقمي.