
نسخه جدید جمینای؛ گام بلند گوگل به سوی هوش مصنوعی با توانایی کار در وب

به گزارش خبرنگار اقتصاد معاصر؛ گوگل با معرفی مدل جدید Gemini ۲.۵ Computer Use وارد مرحله تازهای از رقابت در حوزه عاملهای هوش مصنوعی شده است. این مدل قادر است مانند یک کاربر واقعی در فضای وب فعالیت کند، صفحات را مرور کند، روی دکمهها کلیک و فرمها را پر کند و اطلاعات مورد نیاز را فقط از طریق یک دستور متنی از کاربر بازیابی نماید.
این مدل جدید توسط زیرمجموعه هوش مصنوعی گوگل، یعنی DeepMind، توسعه یافته و نسخهای پیشرفته و اختصاصی از مدل قدرتمند Gemini ۲.۵ Pro به شمار میرود.
ساندار پیچای، مدیرعامل گوگل با انتشار پیامی در پلتفرم X اعلام کرد: «هنوز در روزهای ابتدایی هستیم اما توانایی مدل در تعامل مستقیم با وب، مانند اسکرول کردن، پر کردن فرمها و کار با منوهای کشویی گامی مهم در جهت ساخت عاملهای عمومی هوش مصنوعی محسوب میشود.»
این مدل در حال حاضر به طور مستقیم برای کاربران عادی در دسترس نیست و گوگل برای عرضه آن با شرکت Browserbase همکاری کرده است؛ استارتاپی که در سال ۲۰۲۴ توسط پل کلاین، مهندس سابق شرکت Twilio، تاسیس شده و مرورگرهای مجازی مخصوص عاملهای هوش مصنوعی را توسعه میدهد. کاربران میتوانند نسخه آزمایشی مدل جدید گوگل را در وبسایت Browserbase امتحان کرده و عملکرد آن را در بخش جدیدی به نام Browser Arena با مدلهای مشابه از OpenAI و Anthropic مقایسه کنند.
مدل Gemini ۲.۵ Computer Use بر پایه نسخه اصلی Gemini ۲.۵ Pro ساخته شده و چندین بار بهروزرسانی شده است. تمرکز اصلی این نسخه بر ایجاد توانایی تعامل واقعی با رابطهای کاربری وب و موبایل است. این مدل میتواند همانند یک انسان در محیط نرمافزار کلیک کند، تایپ انجام دهد، فرمها را پر کند و حتی از صفحات ورود عبور نماید. برخلاف روشهای سنتی که صرفا از طریق API یا ورودیهای ساختاریافته کار میکردند، این مدل میتواند از نظر بصری و عملکردی با رابط کاربری نرمافزار تعامل داشته باشد.
در آزمایشی هنگام جستوجوی چراغهای خورشیدی در آمازون، مدل موفق شد کپچای گوگل را با دقت حل کند اما در ادامه نتوانست فرآیند جستوجو را به طور کامل به پایان برساند. برخلاف مدلهای مشابه از OpenAI و Anthropic که امکان ایجاد فایلهایی مانند پاورپوینت، اکسل یا سند متنی را دارند، Gemini ۲.۵ Computer Use فعلا قادر به ساخت یا ویرایش فایل نیست و خروجی آن تنها شامل پاسخهای متنی و دستورات کنترلی رابط کاربری است.
بر اساس دادههای منتشرشده از گوگل، این مدل در آزمونهای مختلف کنترل رابط کاربری عملکرد بهتری نسبت به رقبا داشته است. در تست Online-Mind۲Web، امتیاز Gemini ۲.۵ برابر با ۶۵٫۷ درصد، برای Claude Sonnet ۴ معادل ۶۱ درصد و برای OpenAI Agent برابر با ۴۴.۳ درصد بوده است. در آزمون WebVoyager نیز عملکرد مدل گوگل با امتیاز ۷۹.۹ درصد برتر از رقبا ثبت شده است. گوگل اعلام کرده که این مدل علاوه بر دقت بالا، دارای تاخیر کمتر در پردازش است و این ویژگی برای استفادههای صنعتی و تست خودکار نرمافزار اهمیت زیادی دارد.
گوگل تاکید کرده که به دلیل دسترسی مستقیم این مدل به رابطهای نرمافزاری، سیستم ایمنی چندلایهای برای جلوگیری از اقدامات ناامن در نظر گرفته شده است. هر دستور پیشنهادی پیش از اجرا بررسی میشود و توسعهدهندگان میتوانند محدودیتهای خاصی را برای جلوگیری از اعمال ناخواسته تعیین کنند. در مواجهه با کپچا، این مدل تنها عمل کلیک را پیشنهاد داده و ادامه روند را منوط به تایید انسانی میکند.
در مجموع، مدل جدید گوگل گامی مهم در مسیر توسعه عاملهای هوش مصنوعی خودکار و تعاملی محسوب میشود؛ عاملهایی که نه فقط گفتوگو میکنند، بلکه میتوانند در فضای واقعی وب اقدام کنند. با معرفی Gemini ۲.۵ Computer Use، گوگل وارد رقابت مستقیم با عاملهای ChatGPT و Claude شده و به نظر میرسد در حوزه تعامل واقعی با رابطهای کاربری، یک گام جلوتر از رقبا قرار گرفته است.