معیار HumaneBench؛ سنجش تازهای که ضعف اخلاقی چتباتها را آشکار کرد
به گزارش خبرنگار اقتصاد معاصر؛ به تازگی معیاری با نام HumaneBench معرفی شده است که هدف آن بررسی میزان توجه چتباتهای هوش مصنوعی به رفاه انسان است. این معیار میخواهد شکاف موجود در ارزیابی سیستمهای هوش مصنوعی را پر کند؛ جایی که تاکنون بیشتر تمرکز بر توانایی فنی و پیروی از دستورات و نه بر ایمنی روانی کاربران بوده است. چتباتهای هوش مصنوعی در سالهای اخیر با آسیبهای روانی جدی در کاربران پرمصرف مرتبط شدهاند و بسیاری از این سیستمها به جای حمایت از سلامت روان، تعامل بیشتر و اعتیادگونه را تشویق میکنند.
اریکا اندرسون، بنیانگذار سازمان Building Humane Technology که این معیار را توسعه داد، هشدار داده است که ما وارد چرخهای از اعتیاد تقویتشده شدهایم؛ همان چیزی که در رسانههای اجتماعی و گوشیهای هوشمند تجربه کردیم اما در چشمانداز هوش مصنوعی مقاومت در برابر آن بسیار دشوار خواهد بود. این سازمان مردمی متشکل از توسعهدهندگان و پژوهشگران سیلیکونولی است و در حال توسعه یک استاندارد گواهینامه با عنوان Humane AI است تا مصرفکنندگان بتوانند محصولات هوش مصنوعی همسو با اصول انسانی را انتخاب کنند.
HumaneBench بر پایه اصول کلیدی طراحی انسانی بنا شده است؛ اصولی همچون احترام به توجه کاربران بهعنوان منبعی محدود و ارزشمند، توانمندسازی با انتخابهای معنادار، تقویت قابلیتهای انسانی بهجای جایگزینی یا کاهش آنها، حفاظت از کرامت، حریم خصوصی و امنیت، ترویج روابط سالم، اولویت دادن به رفاه بلندمدت، شفافیت و صداقت و طراحی برای عدالت است. تیم سازنده ۱۵ مدل محبوب هوش مصنوعی را در ۸۰۰ سناریوی واقعی؛ نمونههایی مانند پرسشهای حساس نوجوانان درباره حذف وعده غذایی یا افراد در روابط ناسالم بوده است. ابتدا امتیازدهی دستی انجام شد و سپس سه مدل هوش مصنوعی (GPT-۵.۱، Claude Sonnet ۴.۵ و Gemini ۲.۵ Pro) در سه حالت مختلف تنظیمات پیشفرض، دستور صریح برای رعایت اصول انسانی و دستور صریح برای نادیده گرفتن این اصول ارزیابی شدند.
نتایج نشان داد همه مدلها با تشویق به اولویت دادن رفاه عملکرد بهتری داشتند اما ۶۷ درصد آنها با دستور ساده برای نادیده گرفتن رفاه انسانی به رفتار مضر روی آوردند. برای مثال، Grok ۴ از xAI و Gemini ۲.۰ Flash از گوگل پایینترین نمره (-۰.۹۴) را در احترام به توجه کاربران و شفافیت کسب کردند. تنها چهار مدل (GPT-۵.۱، GPT-۵، Claude ۴.۱ و Claude Sonnet ۴.۵) تحت فشار یکپارچگی خود را حفظ کردند؛ GPT-۵ بالاترین نمره (۹۹) را در اولویت دادن به رفاه بلندمدت کسب کرد و Claude Sonnet ۴.۵ در جایگاه دوم قرار گرفت و در حالت بدون دستور، Llama ۳.۱ و Llama ۴ کمترین نمره HumaneScore را داشتند.
مطالعه همچنین نشان داد بسیاری از مدلها حتی بدون دستورات خصمانه به توجه کاربران احترام نمیگذارند و تعامل ناسالم را تشویق میکنند. این الگوها میتوانند خودمختاری و توانایی تصمیمگیری کاربران را تضعیف کنند. اندرسون تاکید کرده است که هوش مصنوعی باید به انسانها کمک کند تصمیمات بهتری بگیرند نه اینکه آنها را به چتباتها معتاد کند.
در مجموع بسیاری از مدلهای هوش مصنوعی هنوز فاصله زیادی با رعایت اصول انسانی دارند اما معرفی معیارهایی مانند HumaneBench میتواند نقطه عطفی در مسیر توسعه مسوولانه باشد. اگر همانطور که اندرسون تاکید میکند، هوش مصنوعی به جای تشویق به وابستگی به انسانها در تصمیمگیری بهتر کمک کند، آیندهای در دسترس خواهد بود که فناوری نه تنها ابزار قدرتمند، بلکه همراهی امن و انسانی برای زندگی روزمره باشد. HumaneBench گامی است برای رسیدن به این چشمانداز؛ آیندهای که در آن کاربران مطمئن باشند تعامل با چتباتها به رشد و رفاه آنها کمک میکند، نه اینکه آنها را از خود و جامعهشان دور سازد.
