آشنایی با مدل گفتار جهانی USM - مدل جدید هوش مصنوعی گوگل با امکان درک هزار زبان متفاوت

شنبه 20 اسفند 1401

آشنایی با مدل گفتار جهانی USM - مدل جدید هوش مصنوعی گوگل با امکان درک هزار زبان متفاوت — عکس : مدل گفتار جهانی USM

بر اساس اخبار انتشاریافته در وبلاگ گوگل، غول جست‌وجوی آمریکایی نخستین گام با اهمیت را برای ساخت مدل هوش مصنوعی اختصاصی خود، موسوم به مدل گفتار جهانی (Universal Speech Model) برداشته است؛ مدلی که بر اساس جزئیات منتشرشده بناست از بیش از هزار زبان متفاوت در جهان پشتیبانی کند. انتشار این خبر در واقع بخشی از روند آماده‌سازی گوگل برای رویداد سالانه Google I/O به شمار می‌رود که قرار است در آن مجموعه‌ای از محصولات مجهز به هوش مصنوعی رونمایی شود. در این رویداد که ماه می امسال برگزار خواهد شد، ابرشرکت آمریکایی احتمالا بیش از 20 محصول دارای قابلیت‌های هوش مصنوعی را به نمایش خواهد گذاشت.

مدل گفتار جهانی که پیش از این و در نوامبر 2022 از سوی گوگل معرفی شده بود، الگویی مبتنی بر یادگیری ماشینی است و هدف آن تسهیل ارتباط میان میلیاردها نفر، از طریق توسعه قابلیت‌های مرتبط با هزار زبان پراستفاده در جهان عنوان شده است. مطابق جزئیات منتشرشده در بلاگ گوگل، مدل گفتار جهانی یا USM کوتاه‌شده Universal Speech Model خانواده‌ای از مدل‌های گفتاری پیشرفته شامل دو میلیارد پارامتر است که بر اساس 12 میلیون ساعت گفتار و 28 میلیارد جمله متنی آموزش داده شده است. در حال حاضر، این مدل حدود 300 زبان را پوشش می‌دهد و در برخی محصولات گوگل همچون YouTube به کار گرفته می‌شود. در واقع، اگر کاربر هنگام تماشای ویدئوهای YouTube با زبان آن آشنا نباشد، می‌تواند از فناوری تشخیص خودکار گفتار (ASR) برای تولید و نمایش زیرنویس استفاده کند و این مدل USM است که درک محتوا را آسان‌تر می‌سازد. یو ژانگ (Yu Zhang) و جیمز کین (James Qin)، دو تن از پژوهشگران گوگل، در توضیح نحوه آموزش این مدل یادگیری ماشینی از مشکل اساسی در یاد دادن چنین الگوهایی یاد کرده‌اند که همان دسترسی به میزان کافی از داده است. در شیوه مرسوم یادگیری تحت نظارت، داده‌های صوتی باید به صورت دستی برچسب گذاری شوند یا از مجموعه مکتوب از پیش موجودی گردآوری شوند و این فرایند بر اساس زبان و شیوه بازنمایی آن، بسیار پرهزینه، وقت‌گیر و دشوار به نظر می‌رسد.

اما گوگل بر خلاف این شیوه مرسوم، از روش یادگیری «خود‌نظارتی» استفاده کرده است. در گام نخست این روش تنها از داده‌های صوتی استفاده شده که حجم عظیمی از آن‌ها در همه زبان‌ها موجود بوده و باعث آسان‌تر شدن روند آموزش سیستم شده است. در گام بعدی، با استفاده از داده‌های متنی، سطح دومی برای ارتقای کیفیت و پوشش زبانی افزوده شده و محصول این فرآیند در اختیار دیگر ماژول‌های گوگل، همچون ASR قرار گرفته است. پژوهشگران گوگل دریافته‌اند که با استفاده از این رویکرد نرخ خطا در تشخیص کلمه (Word Error Rate یا WER) در 73 زبان کمتر از 30 درصد بوده که دستاورد قابل توجهی به شمار می‌رود. به علاوه برای زبان‌های رایج همچون گویش انگلیسی آمریکایی، نرخ نسبی خطا شش درصد کمتر از مدل داخلی دیگری بوده است که شرکت به کار می‌گیرد. در واقع مقایسه عملکرد این روش با سایر مجموعه داده‌های در دسترس عموم نیز از عملکرد بهتر USM در مقایسه با ASR و دیگر مترجمان گفتاری حکایت دارد.

اینک ابرشرکت آمریکایی پس از طی شدن مراحل اولیه، در پی استفاده از الگوی پایه معماری USM و ساخت مدلی برای بیش از هزار زبان است. آن هم در میانه این رقابت داغ که در آن مارک زاکربرگ در شرکت متا نیز برای عقب نماندن از قافله، اواخر ماه گذشته میلادی از یک مدل زبانی مشابه با ChatGPT به نام LLaMA رونمایی کرده است. البته در مرحله فعلی به درستی نمی‌توان حدس زد که گوگل با USM چه خواهد کرد. اما مسلم است که امکانات این سیستم بی‌پایان خواهد بود. چرا که اگر مدل جدید بتواند گفتار را، در قالب متن یا گفتار مصنوعی، به طور هم‌زمان دریافت و ترجمه کند، برتری قابل توجهی به گوگل خواهد بخشید. البته در صورتی که سرعت و کیفیت خدمات آن نیز مناسب باشد. کارشناسان معرفی مدل هوش مصنوعی گوگل را نوعی واکنش به پیشرفت قابل توجه مایکروسافت در این بازار با ارائه ChatGPT ارزیابی کرده‌اند. اگر چه گوگل اوایل فوریه سال جاری میلادی از هوش مصنوعی Bard به عنوان پاسخی برای مایکروسافت و ChatGPT رونمایی کرده بود. با این حال، نباید منتظر تحقق هدف هزار زبانی گوگل در آینده نزدیک بود، زیرا این روند زمان و آموزش زیادی را می‌طلبد. با این حال ممکن است در ماه‌های آینده و با برگزاری رویداد Google I/O 2023 اخبار جدید و غافلگیرکننده‌تری درباره USM منتشر شود.