فید شبکههای اجتماعیتان پر شده از ویدئوهای بیکیفیت ساختهشده با هوش مصنوعی. یک نشانه ساده برای تشخیص جعلیها وجود دارد: کیفیتش آنقدر افتضاح است که انگار با دوربین عهد بوق گرفته شده است.
کار تمام است. قرار است فریب بخورید، شاید تا حالا هم خوردهاید. در شش ماه گذشته، تولیدکنندههای ویدئوی هوش مصنوعی آنقدر پیشرفته شدهاند که نگاه ما به دوربینها دارد کاملاً عوض میشود.
بهترین سناریو این است: بارها و بارها گول میخورید، تا جایی که خسته و دلزده میشوید و شروع میکنید به زیر سؤال بردن هر چیزی که میبینید. به آینده خوش آمدید.
اما فعلا هنوز چند نشانه هشدار باقی ماندهاند. یکی از همه برجستهتر است. اگر ویدیویی دیدید با کیفیت تصویر بد، تصویری دانهدانه، تار و مبهم، زنگ خطر باید در ذهنتان به صدا درآید که شاید با یک ویدیوی تولیدشده با هوش مصنوعی طرف باشید.
هانی فرید، استاد علوم کامپیوتر در دانشگاه کالیفرنیا، برکلی و پیشگام در حوزه جرمشناسی دیجیتال و بنیانگذار شرکت شناسایی دیپفیک «گت ریل سکیوریتی» میگوید: «این یکی از اولین چیزهاییست که به آن نگاه میکنیم.»
حقیقت تلخ این است که ابزارهای ویدیویی هوش مصنوعی بهزودی بهتر هم خواهند شد و این توصیه دیگر بیفایده خواهد بود. ممکن است این اتفاق در عرض چند ماه بیفتد، یا چند سال طول بکشد.
بیایید صریح باشیم. ویدیوهای هوش مصنوعی لزوما کیفیت پایینتری ندارند. بهترین ابزارهای هوش مصنوعی میتوانند کلیپهایی زیبا و تمیزی تولید کنند و از آن طرف، ویدیوهای بیکیفیت هم لزوما توسط هوش مصنوعی ساخته نشدهاند.
متیو استم، استاد و مدیر آزمایشگاه امنیت اطلاعات و چندرسانهای در دانشگاه درکسل میگوید: «اگر چیزی را ببینید که واقعا کیفیتش پایین است، این به خودی خود بهمعنای تقلبی بودنش نیست. بهمعنای هیچ چیز مشکوکی هم نیست.»
مسئله این است که ویدیوهای تار و پیکسل پیکسل هوش مصنوعی آنهایی هستند که فعلا بیشتر احتمال دارد فریبتان بدهند. این نشانهای است که ممکن است بخواهید بیشتر به آنچه تماشا میکنید دقت کنید.
آقای فرید میگوید: «ابزارهای پیشرو در تبدیل متن به ویدئو مثل وئو گوگل یا سورا از اوپن ایآی هنوز ایرادهای کوچکی دارند اما دیگر خبری از شش انگشت یا متنهای بههمریخته نیست؛ ایرادها خیلی ظریفتر شدهاند.»
حتی پیشرفتهترین مدلهای امروزی هم اغلب مشکلاتی ایجاد میکنند، مثل بافت بیش از حد صاف پوست، الگوهای عجیب یا متغیر در مو و لباس، یا اشیای کوچک در پسزمینه که به شکلهای غیرممکن یا غیرواقعی حرکت میکنند. همه اینها بهراحتی ممکن است دیده نشوند، اما هر چه تصویر واضحتر باشد، احتمال بیشتری هست که این نشانههای تولید با هوش مصنوعی را ببینید.
همین است که ویدیوهای بیکیفیت را اینقدر فریبنده میکند. مثلا وقتی از هوش مصنوعی میخواهید چیزی بسازد که شبیه فیلمبرداری با یک گوشی قدیمی باشد، میتواند مصنوعات تصویری که ممکن بود به دیگران هشدار دهد را پنهان کند.
در چند ماه اخیر، چند ویدیوی معروف هوش مصنوعی تعداد زیادی از مردم را فریب دادند. همه آنها یک نقطه مشترک داشتند. یک ویدیوی جعلی اما بامزه از خرگوشهای وحشی که روی ترامپولین میپریدند، بیش از ۲۴۰ میلیون بار در تیکتاک دیده شد.
میلیونها عاشق دنیای مجازی هم ویدیوی دونفر که در متروی نیویورک عاشق میشوند را لایک کردند. تا اینکه معلوم شد ساختگی بود. خودم شخصا فریب ویدیویی را خوردم از یک کشیش آمریکایی در کلیسایی محافظهکار که خطبهای چپگرایانه میداد. با لهجهای جنوبی فریاد میزد: «میلیاردرها تنها اقلیتی هستند که باید از آنها ترسید! آنها قدرت نابودی این کشور را دارند!»
مات و مبهوت شدم. آیا مرزهای سیاسی ما واقعا اینقدر کمرنگ شدهاند؟ نه. فقط باز هم هوش مصنوعی بود.
تمام این ویدیوها طوری بهنظر میرسیدند که انگار با دوربینی قدیمی و بیکیفیت ضبط شدهاند.
آقای فرید میگوید: «سه چیزی که باید به آنها توجه کنید وضوح، کیفیت و طول ویدیو است.»
طول ویدیو راحتترینشان است. او میگوید: «در بیشتر موارد، ویدیوهای هوش مصنوعی خیلی کوتاه هستند، حتی کوتاهتر از ویدیوهای معمول تیکتاک یا اینستاگرام که حدود ۳۰ تا ۶۰ ثانیهاند. اکثریت ویدیوهایی که برای بررسی به من میفرستند شش، هشت یا ده ثانیهای هستند.»
دلیلش این است که تولید ویدیو با هوش مصنوعی هزینهبر است، بنابراین اکثر ابزارها روی کلیپهای کوتاه محدود هستند. و هر چه ویدیو طولانیتر باشد، احتمال اینکه هوش مصنوعی خرابکاری کند بیشتر است.
آقای فرید میگوید: «میشود چند ویدیوی هوش مصنوعی را به هم چسباند، اما هر ۸ ثانیه یا بیشتر، یک بریدگی را متوجه میشوید.»
دو عامل دیگر، یعنی وضوح و کیفیت، با اینکه مرتبط هستند، متفاوتاند. وضوح به تعداد یا اندازه پیکسلها در یک تصویر اشاره دارد، در حالی که فشردهسازی فرآیندی است برای کاهش حجم فایل ویدیو با حذف جزئیات، که اغلب بهجای آن الگوهای بلوکی و لبههای تار باقی میگذارد.
در واقع، آقای فرید میگوید ویدیوهای جعلی با کیفیت پایین آنقدر قانعکننده هستند که متقلبان عمدا کیفیت را پایین میآورند.
تصاویر با وضوح پایین پیکسلهای کمتری دارند و فشردهسازی هم خطاهای دیگری اضافه میکند. هر دو این عوامل ردهایی را که میتوانند کار هوش مصنوعی را لو بدهند، مخفی میکنند او میگوید: «اگر بخواهم کسی را فریب دهم، چه کار میکنم؟ ویدیوی جعلی تولید میکنم، بعد وضوحش را پایین میآورم، طوری که هنوز دیده شود، اما دیگر نمیشود تمام جزئیات را دید. بعد هم فشردهسازی اضافه میکنم تا هر رد احتمالی بیشتر مخفی شود»، آقای فرید توضیح میدهد. «این یک تکنیک رایج است.»
مشکل اینجاست که همین حالا که این مطلب را میخوانید، غولهای فناوری میلیاردها دلار خرج میکنند تا هوش مصنوعی را واقعیتر کنند.
آقای استم میگوید: «خبر بدی دارم. اگر این نشانههای بصری حالا وجود دارند، بهزودی ناپدید خواهند شد. پیشبینی میکنم که این نشانهها ظرف دو سال از ویدیوها محو شوند، حداقل نشانههای واضح، چون تقریبا از تصاویر تولیدی هوش مصنوعی ناپدید شدهاند. دیگر نمیتوان به چشم اعتماد کرد.»
اما این بهمعنای تسلیم شدن در برابر دروغ نیست. وقتی پژوهشگرانی مثل فرید و استم میخواهند محتوایی را تایید کنند، روشهای پیشرفتهتری در اختیار دارند.
آقای استم میگوید: «وقتی ویدیویی را تولید یا ویرایش میکنید، ردپاهای آماری کوچکی باقی میگذارید که چشم انسان نمیتواند آنها را ببیند. مثل اثر انگشت در صحنه جرم. الان شاهد ظهور تکنیکهایی هستیم که میتوانند این اثر انگشتها را شناسایی و آشکار کنند.»
برای مثال، توزیع پیکسلها در یک ویدیوی جعلی ممکن است با یک ویدیوی واقعی متفاوت باشد، اما عواملی از این دست مطمئن و بیخطا نیستند.
شرکتهای فناوری همچنین روی استانداردهای جدیدی برای تایید اطلاعات دیجیتال کار میکنند. در اصل، دوربینها میتوانند در لحظه ایجاد تصویر، اطلاعاتی در فایل ثبت کنند تا اصالت آن را ثابت کنند. بههمین ترتیب، ابزارهای هوش مصنوعی میتوانند جزئیاتی مشابه به تصاویر و ویدیوهای تولیدیشان اضافه کنند تا ساختگی بودنشان را اثبات کنند. استم و دیگران میگویند این تلاشها میتواند کمککننده باشد.
راهحل واقعی، به گفته مایک کالفیلد، کارشناس سواد دیجیتال، این است که همه ما یاد بگیریم نگاهمان به آنچه آنلاین میبینیم را تغییر دهیم. او میگوید جستوجوی ردپاهای هوش مصنوعی توصیهای «پایدار» نیست، چون این نشانهها مدام تغییر میکنند. در عوض، باید این تصور را کنار بگذاریم که تصاویر یا ویدئوها بدون زمینه معنایی دارند.
کالفیلد میگوید: «دیدگاه من این است که در بلندمدت، ویدئو تقریباً مثل متن خواهد شد؛ جایی که اصل ماجرا منشأ ویدئو است، نه ظاهر آن. و بهتر است از حالا برای این تغییر آماده شویم.»
شما هیچوقت فقط به این دلیل که کسی چیزی را نوشته، آن را درست فرض نمیکنید. اگر شک کنید، منبع را بررسی میکنید. قبلاً تصاویر و ویدئوها فرق داشتند، چون جعل و دستکاریشان سخت بود. اما آن دوران تمام شده است. حالا تنها چیزی که اهمیت دارد این است که محتوا از کجا آمده، چه کسی آن را منتشر کرده، در چه زمینهای قرار دارد و آیا منبع قابل اعتماد آن را تأیید کرده یا نه.
@ADS#5سئوال این است که چه زمانی ما واقعا این واقعیت را درک خواهیم کرد.# آقای استم میگوید: «اگر اجازه دهید کمی اغراق کنم، فکر میکنم این بزرگترین چالش امنیت اطلاعات در قرن بیست و یکم است. اما این مشکل فقط چند سال قدمت دارد. تعداد افرادی که برای حل آن کار میکنند نسبتا کم اما با سرعت در حال افزایش است. ما نیاز به ترکیبی از راهحلها، آموزش، سیاستگذاری هوشمند و رویکردهای فناورانه داریم که همگی با هم کار کنند. من هنوز امیدم را از دست ندادهام.»