با شات ایکس همیشه در فناوری بروز باشید
MGIE، هوش مصنوعی انقلابی اپل برای ویرایش تصاویر مبتنی بر دستورالعمل
عکس : MGIE هوش مصنوعی اپل برای ویرایش تصاویر
.

به تازگی اطلاعاتی از مدل جدید هوش مصنوعی اپل منتشر شده که تحولی شگرف در ویرایش تصاویر ایجاد خواهد کرد.

این مدل منبع باز که " MGIE " نام دارد، قادر است تصاویر را بر اساس محتوای دستورالعمل‌های مبتنی بر زبان طبیعی ویرایش کند.



به گزارش سرویس اخبار هوش مصنوعی سایت شات ایکس و به نقل از ایتنا MGIE مخفف MLLM-Guided Image Editing است، و از مدل‌های زبان بزرگ چندوجهی( MLLMs) استفاده می‌کند تا دستورات دریافتی را تفسیر کرده و بر طبق آنها، به انجام ویرایش و دستکاری در تصاویر در سطح پیکسل بپردازد. MGIE قادر است تصاویر را در لایه‌های ویرایش متفاوتی چون اصلاح سبک فتوشاپ، بهینه‌سازی سرتاسری عکس، و ویرایش بخشی تغییر دهد.

مدل MGIE محصول همکاری شرکت اپل و دانشگاه کالیفرنیاست و جزئیات این مدل اخیرا در مقاله‌ای تحقیقی و در کنفرانس بین‌المللی نمایش‌ های یادگیری(ICLR) سال 2024 تبیین شده است.

MGIE چگونه کار می‌کند؟

اساس هوش مصنوعی جدید اپل مبتنی بر استفاده از MLLMها است، مدل‌هایی که قادرند هم متن و هم تصویر را پردازش و تفسیر نمایند و بدین ترتیب می‌توانند تصاویر را با فهم هر چه دقیق‌تر از دستورالعمل ارائه شده ویرایش کنند.

به عنوان مثال اگر دستورالعملی به شکل :«آسمان را آبی‌تر کن!» صادر شود، MGIE آن را به فرمان اجرایی «افزایش رنگ منطقه آسمان به میزان 20 درصد» تبدیل می‌کند.

MGIE همچنین قادر است طیف وسیعی از سناریوهای ویرایش را اجرایی کند، از تغییرات ساده در رنگ‌های تصویر تا دستکاری‌های پیچیده اجزاء. این مدل می‌تواند ویرایش‌های مورد نظر را به شکل سراسری در تمام عکس،‌ و یا تنها در منطقه‌ای خاص از آن پیاده‌سازی نماید.

این مدل می‌تواند ویرایش‌های رایج و ساده(فتوشاپی) چون برش، تغییر ابعاد و اعمال فیلترهای گوناگون را انجام دهد. این مدل همچنین قادر است ویرایش‌های پیشرفته‌تر چون تغییر پس‌زمینه، افزودن یا حذف اشیا و ترکیب تصاویر را اعمال نماید.

MGIE همچنین قادر است ویژگی‌های سراسری کلی عکس مانند روشنایی، کنتراست، وضوح و تعادل رنگ‌ها را تغییر دهد، و یا صرفا مناطق یا اشیاء خاصی را در عکس مانند صورت، چشم‌ها، موها، لباس‌ها و... تغییر دهد.

MLLMها هر چند توانایی‌های قابل توجهی را در تفسیر دستورات و ارائه پاسخ آگاهانه به آنها از خود نشان داده‌اند، اما تاکنون در زمینه تغییر و ویرایش تصاویر چندان بکارگیری نشده‌اند.

کاربردهای MGIE

هوش مصنوعی MGIE اکنون به عنوان یک پروژه منبع باز در GitHub در دسترس برنامه‌نویسان و توسعه دهندگان است، همچنین در وب، پلتفرمی فراهم شده که کاربران با بکارگیری نسخه آزمایشی آن، قادرند MGIE را به شکل آنلاین مورد استفاده قرار داده و به همکاری در پروژه‌های یادگیری ماشین(ML) بپردازند. ضمن اینکه کاربران می‌توانند برای اصلاح مدل ویرایش‌ها، با MGIE تعامل کنند و با ارائه بازخوردهای خود، در تکمیل MGIE سهیم شوند.

به نظر کارشناسان، MGIE دیگر صرفا نتیجه یک پروژه تحقیقاتی نیست، بلکه عملا به ابزاری کاربردی و مفید برای اهداف گوناگون تبدیل شده است. MGIE می‌تواند در تولید، ویرایش و بهینه‌سازی تصاویر در زمینه‌های چون رسانه‌های اجتماعی، تجارت الکترونیک، آموزش، سرگرمی و هنر به کاربران کمک کند.

MGIE همچنین به بسط و افزایش توانایی کاربران در بیان ایده‌ها و احساساتشان از طریق تصاویر یاری می‌رساند، و سرانجام به کشف و شکوفایی خلاقیت‌ها منجر می‌شود.

کارشناسان معتقدند MGIE نشانگر یک جهش بزرگ در فناوری AI است، و با توانایی‌های گسترده‌ای که دارد، دور از انتظار نیست که این هوش مصنوعی به زودی به یک دستیار خلاق ضروری برای همه تبدیل شود.

منبع: VentureBeat

ارسال این خبر برای دوستان در شبکه های مجازی :
واتساپاینستاگرام