با شات ایکس همیشه در فناوری بروز باشید
ShotX
موبایل
موبایل
آیفون
گلکسی
شیائومی
گوگل پیکسل
ناتینگ فون
نوکیا
ریلمی
وان پلاس
اوپو
نوبیا
گوشی های تاشو
تعمیرات موبایل
لب تاپ
تبلت
سخت افزار
نرم افزار
گیمینگ - بازی
گجت
شبکه و اینترنت
امنیت
هوش مصنوعی
رمز ارزها
نجوم و فضا
خودرو
سایر فناوری ها
علمی
انیمیشن
برنامه نویسی
پزشکی
شبکه های اجتماعی
لوازم خانگی
هوش مصنوعی
mobile.ir
آشنایی با مدل گفتار جهانی USM - مدل جدید هوش مصنوعی گوگل با امکان درک هزار زبان متفاوت
شنبه 20 اسفند 1401
.
عکس : مدل گفتار جهانی USM
.
بر اساس اخبار انتشاریافته در وبلاگ گوگل، غول جستوجوی آمریکایی نخستین گام با اهمیت را برای ساخت مدل هوش مصنوعی اختصاصی خود، موسوم به مدل گفتار جهانی (Universal Speech Model) برداشته است؛ مدلی که بر اساس جزئیات منتشرشده بناست از بیش از هزار زبان متفاوت در جهان پشتیبانی کند. انتشار این خبر در واقع بخشی از روند آمادهسازی گوگل برای رویداد سالانه Google I/O به شمار میرود که قرار است در آن مجموعهای از محصولات مجهز به هوش مصنوعی رونمایی شود. در این رویداد که ماه می امسال برگزار خواهد شد، ابرشرکت آمریکایی احتمالا بیش از 20 محصول دارای قابلیتهای هوش مصنوعی را به نمایش خواهد گذاشت.
مدل گفتار جهانی که پیش از این و در نوامبر 2022 از سوی گوگل معرفی شده بود، الگویی مبتنی بر یادگیری ماشینی است و هدف آن تسهیل ارتباط میان میلیاردها نفر، از طریق توسعه قابلیتهای مرتبط با هزار زبان پراستفاده در جهان عنوان شده است.
مطابق جزئیات منتشرشده در بلاگ گوگل، مدل گفتار جهانی یا USM کوتاهشده Universal Speech Model خانوادهای از مدلهای گفتاری پیشرفته شامل دو میلیارد پارامتر است که بر اساس 12 میلیون ساعت گفتار و 28 میلیارد جمله متنی آموزش داده شده است. در حال حاضر، این مدل حدود 300 زبان را پوشش میدهد و در برخی محصولات گوگل همچون YouTube به کار گرفته میشود. در واقع، اگر کاربر هنگام تماشای ویدئوهای YouTube با زبان آن آشنا نباشد، میتواند از فناوری تشخیص خودکار گفتار (ASR) برای تولید و نمایش زیرنویس استفاده کند و این مدل USM است که درک محتوا را آسانتر میسازد.
یو ژانگ (Yu Zhang) و جیمز کین (James Qin)، دو تن از پژوهشگران گوگل، در توضیح نحوه آموزش این مدل یادگیری ماشینی از مشکل اساسی در یاد دادن چنین الگوهایی یاد کردهاند که همان دسترسی به میزان کافی از داده است. در شیوه مرسوم یادگیری تحت نظارت، دادههای صوتی باید به صورت دستی برچسب گذاری شوند یا از مجموعه مکتوب از پیش موجودی گردآوری شوند و این فرایند بر اساس زبان و شیوه بازنمایی آن، بسیار پرهزینه، وقتگیر و دشوار به نظر میرسد.
اما گوگل بر خلاف این شیوه مرسوم، از روش یادگیری «خودنظارتی» استفاده کرده است. در گام نخست این روش تنها از دادههای صوتی استفاده شده که حجم عظیمی از آنها در همه زبانها موجود بوده و باعث آسانتر شدن روند آموزش سیستم شده است. در گام بعدی، با استفاده از دادههای متنی، سطح دومی برای ارتقای کیفیت و پوشش زبانی افزوده شده و محصول این فرآیند در اختیار دیگر ماژولهای گوگل، همچون ASR قرار گرفته است.
پژوهشگران گوگل دریافتهاند که با استفاده از این رویکرد نرخ خطا در تشخیص کلمه (Word Error Rate یا WER) در 73 زبان کمتر از 30 درصد بوده که دستاورد قابل توجهی به شمار میرود. به علاوه برای زبانهای رایج همچون گویش انگلیسی آمریکایی، نرخ نسبی خطا شش درصد کمتر از مدل داخلی دیگری بوده است که شرکت به کار میگیرد. در واقع مقایسه عملکرد این روش با سایر مجموعه دادههای در دسترس عموم نیز از عملکرد بهتر USM در مقایسه با ASR و دیگر مترجمان گفتاری حکایت دارد.
اینک ابرشرکت آمریکایی پس از طی شدن مراحل اولیه، در پی استفاده از الگوی پایه معماری USM و ساخت مدلی برای بیش از هزار زبان است. آن هم در میانه این رقابت داغ که در آن مارک زاکربرگ در شرکت متا نیز برای عقب نماندن از قافله، اواخر ماه گذشته میلادی از یک مدل زبانی مشابه با ChatGPT به نام LLaMA رونمایی کرده است.
البته در مرحله فعلی به درستی نمیتوان حدس زد که گوگل با USM چه خواهد کرد. اما مسلم است که امکانات این سیستم بیپایان خواهد بود. چرا که اگر مدل جدید بتواند گفتار را، در قالب متن یا گفتار مصنوعی، به طور همزمان دریافت و ترجمه کند، برتری قابل توجهی به گوگل خواهد بخشید. البته در صورتی که سرعت و کیفیت خدمات آن نیز مناسب باشد.
کارشناسان معرفی مدل هوش مصنوعی گوگل را نوعی واکنش به پیشرفت قابل توجه مایکروسافت در این بازار با ارائه ChatGPT ارزیابی کردهاند. اگر چه گوگل اوایل فوریه سال جاری میلادی از هوش مصنوعی Bard به عنوان پاسخی برای مایکروسافت و ChatGPT رونمایی کرده بود. با این حال، نباید منتظر تحقق هدف هزار زبانی گوگل در آینده نزدیک بود، زیرا این روند زمان و آموزش زیادی را میطلبد. با این حال ممکن است در ماههای آینده و با برگزاری رویداد Google I/O 2023 اخبار جدید و غافلگیرکنندهتری درباره USM منتشر شود.
مدل گفتار جهانی چیست؟
لینک منبع اصلی خبر
ارسال این خبر برای دوستان در شبکه های مجازی :
مقالات و اخبار مرتبط
چگونه هوش مصنوعی میتواند حریم خصوصی و هویت ما را تهدید کند؟
هوش مصنوعی به کمک زلزلهزدگان ترکیه میرود؛ تشخیص سریعتر مناطق آسیبدیده
دسترسی آنی به چتبات جدید بینگ مایکروسافت امکانپذیر شد
علیبابا با مدل هوش مصنوعی خود به جنگ ChatGPT می رود
هوش مصنوعی «چت جیپیتی» دیگر شما را فراموش نمیکند
راهکارهای NTIA برای ارتقاء رقابت در بازار اپلیکیشنهای موبایل – نصب اپلیکیشن روی آیفون بدون App Store؟
پایان تلاشهای گوگل برای تولید عینک واقعیت افزوده - شنیدهها از توقف پروژه Iris خبر میدهند
رونمایی SK hynix از LPDDR5T – سریعترین DRAM موبایلی حال حاضر دنیا
وارن بافت: نگران توسعه هوش مصنوعی هستم
چطور بفمیم چند سیم کارت به نام ثبت شده است ؟
جدیدترین بهروزرسانی قیمت ارزهای دیجیتالی
چالش تیک تاکی به شکایت از خودروسازان منجر شد
قیمت شش خودروی وارداتی در سامانه یکپارچه اعلام شد + توضیحات بیشتر
بی بی سی - BBC :
ناسا میخواهد واکنش جانوران در برابر خورشیدگرفتگی را بررسی کند
نجوم و فضا
ایتنا
روبوتاکسیهای وایمو هفتهای 50000 سفر پولی انجام میدهند
فرارو
ارتباط الگوریتم با خوارزمی پدربزرگ ایرانی علوم رایانه
دیجیاتو
«سرگی برین» درباره برنامههای هوش مصنوعی گوگل و پروژه گلس صحبت کرد
ترنجی
اندروید 15 بتا 2 برای پیکسلها رسماً ارائه شد
دیجیاتو
یک پزشک استرالیایی با درمان پیشگامانه خودش، از سرطان مرگبار مغز نجات یافت
گیزمو چاینا
تلویزیون هواوی با لبه باریک و هوش مصنوعی عرضه شد
رویترز - Reuters
شکایت کاربران علیه فیلتر شدن تیک تاک در امریکا
دیجیاتو
سونی از اکسپریا 10 مارک 6 رونمایی کرد
شات ایکس
پیگیری مغایرت راننده و خودرو اسنپ
العین
از اوبر تا دراپباکس شرکتهای بزرگ آمریکایی که ایرانیها اداره میکنند!