اقتصاد کلان

اقتصاد کلان

بانک

صنعت

کشاورزی

راه و مسکن

اقتصاد بین الملل

انرژی

بازرگانی

بورس

فناوری

سیاست و اقتصاد

کارآفرینی و تعاون

بازار

چند رسانه ای

۲۴/خرداد/۱۴۰۵ | ۲۰:۴۳
۲۰:۲۸ ۱۴۰۵/۰۳/۲۴

گوگل ترجمه هم‌زمان زنده را وارد مرحله جدید کرد

گوگل با معرفی مدل جدید Gemini ۳.۵ Live Translate وارد مرحله تازه‌ای از ترجمه هم‌زمان شده؛ فناوری‌ای که می‌تواند صحبت افراد را تقریباً در لحظه و با چند ثانیه تأخیر، به زبان‌های دیگر به‌صورت صوتی ترجمه کند، آن هم با حفظ نسبی لحن و حالت طبیعی صدا.
کد خبر:۵۲۶۳۶

به گزارش خبرنگار اقتصاد معاصر؛ گوگل در حال توسعه یک فناوری جدید ترجمه هم‌زمان است که می‌تواند صحبت‌های افراد را تقریبا در همان لحظه به زبان‌های دیگر تبدیل کند. این قابلیت با مدل جدیدی به نام Gemini ۳.۵ Live Translate معرفی شده و هدف آن این است که مکالمه بین زبان‌های مختلف بدون نیاز به مکث طولانی یا ترجمه دستی انجام شود.

این سیستم از نوع «گفتار به گفتار» است؛ یعنی صحبت را مستقیم به صدا در زبان دیگر تبدیل می‌کند، نه اینکه فقط متن نشان دهد. یکی از ویژگی‌های مهم آن این است که می‌تواند به‌صورت خودکار تشخیص دهد چه زبانی در حال صحبت است و نیاز به تنظیم دستی زبان‌ها را از بین می‌برد. طبق گفته گوگل، این فناوری از بیش از ۷۰ زبان پشتیبانی می‌کند.

نکته قابل توجه این است که سرعت پردازش آن بسیار بالاست و می‌تواند با چند ثانیه تاخیر، هم‌زمان با صحبت گوینده ترجمه را پخش کند. علاوه بر خود محتوا، تلاش شده تا لحن، ریتم و زیر و بمی صدا نیز تا حدی حفظ شود تا خروجی طبیعی‌تر به نظر برسد و شبیه یک صدای مکانیکی ساده نباشد.

این فناوری فقط در یک محصول خاص باقی نمی‌ماند و قرار است در بخش‌های مختلف اکوسیستم گوگل استفاده شود. یکی از مهم‌ترین آن‌ها اپلیکیشن Google Translate در اندروید و iOS است که به‌زودی به این قابلیت مجهز خواهد شد. همچنین در Google Meet نیز برای تماس‌ها و جلسات آنلاین به‌صورت آزمایشی در دسترس برخی کاربران سازمانی قرار گرفته است.

برای توسعه‌دهندگان هم امکان استفاده از این مدل از طریق Gemini Live API و AI Studio فراهم شده تا بتوانند در اپلیکیشن‌های خود از ترجمه زنده استفاده کنند. این سیستم به‌گونه‌ای طراحی شده که بتواند گفتار را به‌صورت پیوسته پردازش کند و حتی در مکالمه‌هایی که چند زبان به‌طور هم‌زمان استفاده می‌شود، بدون نیاز به تعیین دستی زبان‌ها عمل کند. علاوه بر این، در محیط‌های شلوغ نیز توانایی کاهش نویز پس‌زمینه را دارد تا کیفیت ترجمه پایین نیاید.

در نسخه‌های جدیدتر، گوگل دسترسی کاربران را گسترده‌تر کرده است. در گذشته این قابلیت بیشتر محدود به دستگاه‌های خاص مثل Pixel Buds یا برخی گوشی‌های اندرویدی بود اما حالا روی گوشی‌های مختلف و حتی بدون هدفون هم قابل استفاده است. در حالتی که هدفون در دسترس نباشد، کاربر می‌تواند گوشی را نزدیک گوش خود نگه دارد و ترجمه را مثل یک تماس تلفنی بشنود، البته این حالت فعلا فقط روی اندروید فعال است.

به عنوان مثال، اگر فردی در حال گوش دادن به یک تور گردشگری به زبان اسپانیایی باشد، می‌تواند تقریبا هم‌زمان ترجمه انگلیسی آن را از گوشی خود بشنود. این موضوع باعث می‌شود ارتباط بین افراد با زبان‌های مختلف بسیار ساده‌تر و سریع‌تر شود.

در کنار همه این‌ها، گوگل برای شفافیت بیشتر در استفاده از هوش مصنوعی، روی خروجی‌های صوتی این سیستم واترمارک دیجیتالی به نام SynthID قرار داده است. این واترمارک داخل داده صوتی تعبیه می‌شود و نشان می‌دهد که صدا توسط هوش مصنوعی تولید شده است و در حال حاضر امکان حذف آن وجود ندارد.

ارسال نظرات
captcha