یک شرکت توسعهدهنده هوشمصنوعی با نام Stability اعلام کرد که هنر مولد Stable Diffusion اکنون میتواند متحرکسازی کند.
این شرکت محصول جدیدی به نام Stable Video Diffusion را در یک پیشنمایش تحقیقاتی منتشر کرده است که به کاربران امکان میدهد از یک تصویر یک ویدیو بسازند. این شرکت نوشت: «این مدل ویدیویی هوش مصنوعی مولد گامی مهم در تحقق هدف ما به سمت ایجاد مدلهایی برای همگان با هر سلیقهای است».
این ابزار جدید در قالب دو مدل تبدیل تصویر به ویدیو منتشر شده استف که هر کدام قادر به تولید 14 تا 25 فریم با سرعت بین 3 تا 30 فریم در ثانیه با وضوح 576 × 1024 هستند. این ابزار، قابلیت ترکیب چند نمایی از یک فریم را با تنظیم دقیق دیتاستهای چند نمایی دارد. این شرکت با مقایسه آن با پلتفرمهای تبدیل متن به ویدیویی همچون Runway و Pika Labs گفت: «ما، در زمان انتشار این مدلها در شکل اصلیشان، از طریق ارزیابی خارجی، دریافتیم که آنها از مدلهای بسته پیشرو در مطالعات مربوط به ترجیحات کاربران بهتر هستند».
در حال حاضر Stable Video Diffusion فقط برای اهداف تحقیقاتی در دسترس است، نه برای کاربردهای دنیای واقعی یا تجاری. این شرکت توضیح داد که کاربران بالقوه میتوانند برای دسترسی به یک «تجربه وب آتی مجهز به یک رابط متن به ویدئو» ثبتنام کنند تا در لیست انتظار قرار گیرند. این ابزار میتواند کاربردهایی در بخشهایی از جمله تبلیغات، آموزش، سرگرمی و حوزههای دیگر داشته باشد.
به نظر میرسد نمونه های نشان داده شده در ویدیوی معرفی آن از کیفیت نسبتاً بالایی برخوردار بوده و با سیستمهای مولد دیگر قابل رقابت هستند. با این حال، این شرکت توضیح داد که این ابزار محدودیتهایی دارد: فیلم نسبتاً کوتاه (کمتر از 4 ثانیه) تولید میکند، فاقد فوتورئالیسم کامل است، نمیتواند حرکت دوربین را به جز حرکتهای افقی آهسته انجام دهد، کنترل متن ندارد، نمیتواند متن خوانا تولید کند و ممکن است افراد و چهرهها را به درستی تولید نکنید.