به گزارش خبرنگار اقتصاد معاصر؛ گوگل در حال توسعه یک فناوری جدید ترجمه همزمان است که میتواند صحبتهای افراد را تقریبا در همان لحظه به زبانهای دیگر تبدیل کند. این قابلیت با مدل جدیدی به نام Gemini ۳.۵ Live Translate معرفی شده و هدف آن این است که مکالمه بین زبانهای مختلف بدون نیاز به مکث طولانی یا ترجمه دستی انجام شود.
این سیستم از نوع «گفتار به گفتار» است؛ یعنی صحبت را مستقیم به صدا در زبان دیگر تبدیل میکند، نه اینکه فقط متن نشان دهد. یکی از ویژگیهای مهم آن این است که میتواند بهصورت خودکار تشخیص دهد چه زبانی در حال صحبت است و نیاز به تنظیم دستی زبانها را از بین میبرد. طبق گفته گوگل، این فناوری از بیش از ۷۰ زبان پشتیبانی میکند.
نکته قابل توجه این است که سرعت پردازش آن بسیار بالاست و میتواند با چند ثانیه تاخیر، همزمان با صحبت گوینده ترجمه را پخش کند. علاوه بر خود محتوا، تلاش شده تا لحن، ریتم و زیر و بمی صدا نیز تا حدی حفظ شود تا خروجی طبیعیتر به نظر برسد و شبیه یک صدای مکانیکی ساده نباشد.
این فناوری فقط در یک محصول خاص باقی نمیماند و قرار است در بخشهای مختلف اکوسیستم گوگل استفاده شود. یکی از مهمترین آنها اپلیکیشن Google Translate در اندروید و iOS است که بهزودی به این قابلیت مجهز خواهد شد. همچنین در Google Meet نیز برای تماسها و جلسات آنلاین بهصورت آزمایشی در دسترس برخی کاربران سازمانی قرار گرفته است.
برای توسعهدهندگان هم امکان استفاده از این مدل از طریق Gemini Live API و AI Studio فراهم شده تا بتوانند در اپلیکیشنهای خود از ترجمه زنده استفاده کنند. این سیستم بهگونهای طراحی شده که بتواند گفتار را بهصورت پیوسته پردازش کند و حتی در مکالمههایی که چند زبان بهطور همزمان استفاده میشود، بدون نیاز به تعیین دستی زبانها عمل کند. علاوه بر این، در محیطهای شلوغ نیز توانایی کاهش نویز پسزمینه را دارد تا کیفیت ترجمه پایین نیاید.
در نسخههای جدیدتر، گوگل دسترسی کاربران را گستردهتر کرده است. در گذشته این قابلیت بیشتر محدود به دستگاههای خاص مثل Pixel Buds یا برخی گوشیهای اندرویدی بود اما حالا روی گوشیهای مختلف و حتی بدون هدفون هم قابل استفاده است. در حالتی که هدفون در دسترس نباشد، کاربر میتواند گوشی را نزدیک گوش خود نگه دارد و ترجمه را مثل یک تماس تلفنی بشنود، البته این حالت فعلا فقط روی اندروید فعال است.
به عنوان مثال، اگر فردی در حال گوش دادن به یک تور گردشگری به زبان اسپانیایی باشد، میتواند تقریبا همزمان ترجمه انگلیسی آن را از گوشی خود بشنود. این موضوع باعث میشود ارتباط بین افراد با زبانهای مختلف بسیار سادهتر و سریعتر شود.
در کنار همه اینها، گوگل برای شفافیت بیشتر در استفاده از هوش مصنوعی، روی خروجیهای صوتی این سیستم واترمارک دیجیتالی به نام SynthID قرار داده است. این واترمارک داخل داده صوتی تعبیه میشود و نشان میدهد که صدا توسط هوش مصنوعی تولید شده است و در حال حاضر امکان حذف آن وجود ندارد.