مدتی است که آموزش مدلهای پیشرفته هوش مصنوعی با محتواهای اختصاصی به موضوعی بحثبرانگیز تبدیل شده است. بسیاری از شرکتها با شکایتهایی از سوی نویسندگان و رسانههای مختلف مواجه هستند.
حالا متا اعتراف کرده که از کتابهای دارای کپی رایت در مجموعهای موسوم به «Books3» استفاده کرده است، بااینحال این شرکت تمایلی نیز به پرداخت غرامت به نویسندگان ندارد.
براساس گزارشی تازه، گروهی از نویسندگان با ادعای استفاده غیرقانونی از مطالب دارای کپی رایت در توسعه مدلهای زبان بزرگ Llama 1 و Llama 2، علیه متا شکایت کردند. در پاسخ، این شرکت به نویسنده و کمدین «سارا سیلورمن»، «ریچارد کادری» و سایر دارندگان آثاری که کپی رایت دارند، گفته است که مدلهای هوش مصنوعی خود را با استفاده از کتابهای دارای حق تکثیر آموزش داده است.
اعتراف متا و استفاده منصفانه از منابع دارای کپی رایت
متا اعتراف کرده است که از مجموعه Books3 برای آموزش مدلهای زبانی بزرگ Llama 1 و Llama 2 استفاده کرده است. Books3 مجموعهای شناخته شده است که شامل متن ساده بیش از 195 هزار کتاب است که مجموعاً نزدیک به 37 گیگابایت حجم دارد. این آرشیو توسط یک محقق هوش مصنوعی در سال 2020 بهعنوان راهی برای ارائه یک منبع داده بهتر برای بهبود الگوریتمهای یادگیری ماشین ایجاد شد.
متا حالا اذعان کرده است که از بخشهایی از مجموعه داده Books3 استفاده میکند؛ استدلال متا این است که استفاده از آثار دارای کپی رایت برای آموزش مدلهای هوش مصنوعی نیازی به رضایت یا پرداخت غرامت به نویسندگان ندارد. این شرکت ادعاهای مربوط به نقض حق تکثیر شاکیان را رد میکند و میگوید که هرگونه استفاده از آثار دارای کپی رایت در Books3 باید بهعنوان «استفاده منصفانه» در نظر گرفته شود. بدین معنا که شرکتها میتوانند بدون اجازه از مالک، از منابع آنها برای آموزش هوش مصنوعی استفاده کنند.
OpenAI نیز در پی شکایت نیویورک تایمز، آشکارا اعلام کرده است که آموزش مدلهای هوش مصنوعی بدون استفاده از مطالب دارای کپی رایت غیرممکن است.