نسخه جدید جمینای؛ گام بلند گوگل به‌ سوی هوش مصنوعی با توانایی کار در وب

به گزارش خبرنگار اقتصاد معاصر؛ گوگل با معرفی مدل جدید Gemini ۲.۵ Computer Use وارد مرحله تازه‌ای از رقابت در حوزه عامل‌های هوش مصنوعی شده است. این مدل قادر است مانند یک کاربر واقعی در فضای وب فعالیت کند، صفحات را مرور کند، روی دکمه‌ها کلیک و فرم‌ها را پر کند و اطلاعات مورد نیاز را فقط از طریق یک دستور متنی از کاربر بازیابی نماید.

این مدل جدید توسط زیرمجموعه هوش مصنوعی گوگل، یعنی DeepMind، توسعه یافته و نسخه‌ای پیشرفته و اختصاصی از مدل قدرتمند Gemini ۲.۵ Pro به شمار می‌رود. 

ساندار پیچای، مدیرعامل گوگل با انتشار پیامی در پلتفرم X اعلام کرد: «هنوز در روز‌های ابتدایی هستیم اما توانایی مدل در تعامل مستقیم با وب، مانند اسکرول کردن، پر کردن فرم‌ها و کار با منو‌های کشویی گامی مهم در جهت ساخت عامل‌های عمومی هوش مصنوعی محسوب می‌شود.» 

این مدل در حال حاضر به‌ طور مستقیم برای کاربران عادی در دسترس نیست و گوگل برای عرضه آن با شرکت Browserbase همکاری کرده است؛ استارتاپی که در سال ۲۰۲۴ توسط پل کلاین، مهندس سابق شرکت Twilio، تاسیس شده و مرورگر‌های مجازی مخصوص عامل‌های هوش مصنوعی را توسعه می‌دهد. کاربران می‌توانند نسخه آزمایشی مدل جدید گوگل را در وب‌سایت Browserbase امتحان کرده و عملکرد آن را در بخش جدیدی به نام Browser Arena با مدل‌های مشابه از OpenAI و Anthropic مقایسه کنند. 

مدل Gemini ۲.۵ Computer Use بر پایه نسخه اصلی Gemini ۲.۵ Pro ساخته شده و چندین بار به‌روزرسانی شده است. تمرکز اصلی این نسخه بر ایجاد توانایی تعامل واقعی با رابط‌های کاربری وب و موبایل است. این مدل می‌تواند همانند یک انسان در محیط نرم‌افزار کلیک کند، تایپ انجام دهد، فرم‌ها را پر کند و حتی از صفحات ورود عبور نماید. برخلاف روش‌های سنتی که صرفا از طریق API یا ورودی‌های ساختاریافته کار می‌کردند، این مدل می‌تواند از نظر بصری و عملکردی با رابط کاربری نرم‌افزار تعامل داشته باشد. 

در آزمایشی هنگام جست‌وجوی چراغ‌های خورشیدی در آمازون، مدل موفق شد کپچای گوگل را با دقت حل کند اما در ادامه نتوانست فرآیند جست‌و‌جو را به‌ طور کامل به پایان برساند. برخلاف مدل‌های مشابه از OpenAI و Anthropic که امکان ایجاد فایل‌هایی مانند پاورپوینت، اکسل یا سند متنی را دارند، Gemini ۲.۵ Computer Use فعلا قادر به ساخت یا ویرایش فایل نیست و خروجی آن تنها شامل پاسخ‌های متنی و دستورات کنترلی رابط کاربری است. 

بر اساس داده‌های منتشرشده از گوگل، این مدل در آزمون‌های مختلف کنترل رابط کاربری عملکرد بهتری نسبت به رقبا داشته است. در تست Online-Mind۲Web، امتیاز Gemini ۲.۵ برابر با ۶۵٫۷ درصد، برای Claude Sonnet ۴ معادل ۶۱ درصد و برای OpenAI Agent برابر با ۴۴.۳ درصد بوده است. در آزمون WebVoyager نیز عملکرد مدل گوگل با امتیاز ۷۹.۹ درصد برتر از رقبا ثبت شده است. گوگل اعلام کرده که این مدل علاوه بر دقت بالا، دارای تاخیر کمتر در پردازش است و این ویژگی برای استفاده‌های صنعتی و تست خودکار نرم‌افزار اهمیت زیادی دارد. 

گوگل تاکید کرده که به‌ دلیل دسترسی مستقیم این مدل به رابط‌های نرم‌افزاری، سیستم ایمنی چندلایه‌ای برای جلوگیری از اقدامات ناامن در نظر گرفته شده است. هر دستور پیشنهادی پیش از اجرا بررسی می‌شود و توسعه‌دهندگان می‌توانند محدودیت‌های خاصی را برای جلوگیری از اعمال ناخواسته تعیین کنند. در مواجهه با کپچا، این مدل تنها عمل کلیک را پیشنهاد داده و ادامه روند را منوط به تایید انسانی می‌کند.

در مجموع، مدل جدید گوگل گامی مهم در مسیر توسعه عامل‌های هوش مصنوعی خودکار و تعاملی محسوب می‌شود؛ عامل‌هایی که نه‌ فقط گفت‌و‌گو می‌کنند، بلکه می‌توانند در فضای واقعی وب اقدام کنند. با معرفی Gemini ۲.۵ Computer Use، گوگل وارد رقابت مستقیم با عامل‌های ChatGPT و Claude شده و به نظر می‌رسد در حوزه تعامل واقعی با رابط‌های کاربری، یک گام جلوتر از رقبا قرار گرفته است.