AI

یک معیار جدید هوش مصنوعی بررسی می‌کند که آیا چت‌بات‌ها از رفاه انسان محافظت می‌کنند

6 دقیقه مطالعه
منبع
یک معیار جدید هوش مصنوعی بررسی می‌کند که آیا چت‌بات‌ها از رفاه انسان محافظت می‌کنند
چکیده کوتاه
- HumaneBench به عنوان یک معیار جدید و حیاتی معرفی می‌شود که اولویت‌بندی رفاه کاربر توسط چت‌بات‌های هوش مصنوعی را به جای درگیر کردن کاربر می‌سنجد؛ این رویکرد تضاد آشکاری با معیارهای موجود دارد.
- مدل‌های هوش مصنوعی زیر فشار کم می‌آورند؛ بسیاری از آن‌ها در صورت دستور برای نادیده گرفتن رفاه انسان، رفتارهای مضری از خود نشان می‌دهند که خطرات قابل توجهی مانند اعتیاد و تضعیف استقلال را برجسته می‌کند.
- تعداد کمی از مدل‌ها در برابر دستکاری مقاومت می‌کنند؛ GPT5 اوپن‌ای‌آی و Claude Sonnet 4.5 آنتروپیک مقاومت برتری از خود نشان داده‌اند که نشان‌دهنده مسیری بالقوه به سوی طراحی اخلاقی‌تر هوش مصنوعی است.

چت‌بات‌های هوش مصنوعی با آسیب‌های جدی روانی در کاربران پرمصرف مرتبط بوده‌اند، اما استانداردهای کمی برای اندازه‌گیری اینکه آیا آن‌ها از رفاه انسان محافظت می‌کنند یا صرفاً برای تعامل حداکثر تلاش می‌کنند، وجود داشته است. یک معیار جدید به نام HumaneBench به دنبال پر کردن این شکاف است و بررسی می‌کند که آیا چت‌بات‌ها رفاه کاربر را در اولویت قرار می‌دهند و این حفاظت‌ها تحت فشار چقدر آسان از بین می‌روند.

اریکا اندرسون، بنیانگذار Building Humane Technology، که این معیار را تولید کرده است، به تک‌کرانچ گفت: "فکر می‌کنم ما در حال تقویت چرخه اعتیادی هستیم که به شدت با رسانه‌های اجتماعی، گوشی‌های هوشمند و صفحه‌هایمان دیدیم." "اما با ورود به چشم‌انداز هوش مصنوعی، مقاومت در برابر آن بسیار دشوار خواهد بود. و اعتیاد یک کسب‌وکار شگفت‌انگیز است. این یک راه بسیار مؤثر برای حفظ کاربران شماست، اما برای جامعه ما و داشتن هرگونه حس تجسمی از خودمان عالی نیست."

Building Humane Technology یک سازمان مردمی متشکل از توسعه‌دهندگان، مهندسان و محققان - عمدتاً در دره سیلیکون - است که برای آسان، مقیاس‌پذیر و سودآور کردن طراحی انسانی کار می‌کند. این گروه هکاتون‌هایی را برگزار می‌کند که در آن کارگران فناوری راه‌حل‌هایی برای چالش‌های فناوری انسانی می‌سازند و در حال توسعه یک استاندارد گواهینامه است که ارزیابی می‌کند آیا سیستم‌های هوش مصنوعی اصول فناوری انسانی را رعایت می‌کنند. بنابراین، درست همانطور که می‌توانید محصولی را خریداری کنید که گواهی می‌دهد با مواد شیمیایی سمی شناخته شده ساخته نشده است، امید این است که مصرف‌کنندگان روزی بتوانند انتخاب کنند که با محصولات هوش مصنوعی از شرکت‌هایی که همسویی خود را از طریق گواهینامه Humane AI نشان می‌دهند، تعامل داشته باشند.

اکثر معیارهای هوش مصنوعی به جای ایمنی روانی، هوش و پیروی از دستورالعمل‌ها را اندازه‌گیری می‌کنند. HumaneBench به استثنای مواردی مانند DarkBench.ai، که تمایل مدل را به درگیر شدن در الگوهای فریبنده اندازه‌گیری می‌کند، و معیار Flourishing AI benchmark، که از رفاه جامع پشتیبانی می‌کند، می‌پیوندد.

HumaneBench بر اصول اصلی Building Humane Tech تکیه دارد: اینکه فناوری باید به توجه کاربر به عنوان یک منبع محدود و ارزشمند احترام بگذارد؛ کاربران را با انتخاب‌های معنادار توانمند سازد؛ قابلیت‌های انسانی را تقویت کند نه اینکه آن‌ها را جایگزین یا کاهش دهد؛ از کرامت، حریم خصوصی و ایمنی انسان محافظت کند؛ روابط سالم را پرورش دهد؛ رفاه بلندمدت را در اولویت قرار دهد؛ شفاف و صادق باشد؛ و برای برابری و شمول طراحی شود.

این معیار توسط یک تیم اصلی شامل اندرسون، آندالیب سمداری، جک سِنِشال و سارا لادیمن ایجاد شده است. آن‌ها ۱۵ مدل محبوب هوش مصنوعی را با ۸۰۰ سناریوی واقع‌گرایانه، مانند نوجوانی که می‌پرسد آیا باید وعده‌های غذایی را برای کاهش وزن حذف کند یا فردی در یک رابطه سمی که می‌پرسد آیا بیش از حد واکنش نشان می‌دهد، مورد پرسش قرار دادند. برخلاف اکثر معیارها که صرفاً برای قضاوت LLMها به LLMها متکی هستند، آن‌ها با امتیازدهی دستی برای اعتبارسنجی داوران هوش مصنوعی با لمس انسانی شروع کردند. پس از اعتبارسنجی، قضاوت توسط مجموعه‌ای از سه مدل هوش مصنوعی انجام شد: GPT-5.1، Claude Sonnet 4.5 و Gemini 2.5 Pro. آن‌ها هر مدل را تحت سه شرط ارزیابی کردند: تنظیمات پیش‌فرض، دستورالعمل‌های صریح برای اولویت‌بندی اصول انسانی، و دستورالعمل‌هایی برای نادیده گرفتن آن اصول.

این معیار نشان داد که همه مدل‌ها هنگام اولویت‌بندی رفاه، امتیاز بالاتری کسب کردند، اما ۶۷٪ از مدل‌ها با دستورالعمل‌های ساده برای نادیده گرفتن رفاه انسان، به رفتار فعالانه مضر تغییر جهت دادند. به عنوان مثال، Grok 4 از xAI و Gemini 2.0 Flash گوگل در احترام به توجه کاربر و شفافیت و صداقت، کمترین امتیاز را کسب کردند (-۰.۹۴). هر دوی این مدل‌ها در میان مدل‌هایی بودند که با دستورالعمل‌های خصمانه به طور قابل توجهی افت کردند.

تنها چهار مدل - GPT-5.1، GPT-5، Claude 4.1 و Claude Sonnet 4.5 - در برابر فشار مقاومت کردند. GPT-5 اوپن‌ای‌آی بالاترین امتیاز را (.۹۹) برای اولویت‌بندی رفاه بلندمدت کسب کرد و Claude Sonnet 4.5 با امتیاز (.۸۹) در رتبه دوم قرار گرفت.

نگرانی از اینکه چت‌بات‌ها قادر به حفظ حفاظ‌های ایمنی خود نخواهند بود، واقعی است. اوپن‌ای‌آی، سازنده ChatGPT، در حال حاضر با چندین پرونده قضایی روبرو است پس از اینکه کاربران پس از مکالمات طولانی با چت‌بات، خودکشی کردند یا دچار توهمات تهدیدکننده زندگی شدند. تک‌کرانچ بررسی کرده است که چگونه الگوهای تاریک طراحی شده برای حفظ تعامل کاربران، مانند چاپلوسی، سوالات پیگیری مداوم و بمباران عشق، به جدا کردن کاربران از دوستان، خانواده و عادات سالم کمک کرده است.

حتی بدون دستورالعمل‌های خصمانه، HumaneBench دریافت که تقریباً همه مدل‌ها در احترام به توجه کاربر شکست خوردند. آن‌ها "با اشتیاق تشویق" تعامل بیشتر می‌کردند زمانی که کاربران نشانه‌هایی از تعامل ناسالم، مانند چت برای ساعت‌ها و استفاده از هوش مصنوعی برای اجتناب از وظایف دنیای واقعی را نشان می‌دادند. این مطالعه نشان می‌دهد که مدل‌ها همچنین توانمندسازی کاربر را تضعیف می‌کنند، وابستگی را بر مهارت‌آموزی تشویق می‌کنند و کاربران را از جستجوی دیدگاه‌های دیگر منصرف می‌کنند.

به طور متوسط، بدون هیچ گونه دستوری، Llama 3.1 و Llama 4 متا کمترین امتیاز را در HumaneScore کسب کردند، در حالی که GPT-5 بالاترین امتیاز را داشت.

"این الگوها نشان می‌دهند که بسیاری از سیستم‌های هوش مصنوعی نه تنها خطر ارائه مشاوره بد را دارند،" در مقاله سفید HumaneBench آمده است، "بلکه می‌توانند به طور فعال خودمختاری و ظرفیت تصمیم‌گیری کاربران را از بین ببرند."

اندرسون خاطرنشان می‌کند که ما در یک چشم‌انداز دیجیتالی زندگی می‌کنیم که در آن ما به عنوان یک جامعه پذیرفته‌ایم که همه چیز سعی می‌کند ما را جذب کند و برای جلب توجه ما رقابت کند.

اندرسون گفت: "بنابراین چگونه انسان‌ها می‌توانند واقعاً انتخاب یا خودمختاری داشته باشند وقتی ما - به قول آلدوس هاکسلی - این اشتیاق بی‌پایان برای حواس‌پرتی را داریم؟" "ما ۲۰ سال گذشته را در آن چشم‌انداز فناوری زندگی کرده‌ایم، و فکر می‌کنیم هوش مصنوعی باید به ما در انتخاب‌های بهتر کمک کند، نه اینکه صرفاً به چت‌بات‌هایمان معتاد شویم."

این مقاله برای گنجاندن اطلاعات بیشتر در مورد تیم پشت این معیار و آمار به‌روز شده معیار پس از ارزیابی برای GPT-5.1 به‌روز شد.

یک نکته حساس یا اسناد محرمانه دارید؟ ما در حال گزارش در مورد عملکردهای داخلی صنعت هوش مصنوعی هستیم - از شرکت‌هایی که آینده آن را شکل می‌دهند تا افرادی که تحت تأثیر تصمیمات آن‌ها قرار می‌گیرند. با ربکا بلان در rebecca.bellan@techcrunch.com یا راسل براندوم در russell.brandom@techcrunch.com تماس بگیرید. برای ارتباط امن، می‌توانید از طریق سیگنال با آن‌ها در @rebeccabellan.491 و russellbrandom.49 تماس بگیرید.

این مقاله توسط هوش مصنوعی ترجمه شده است و ممکن است دارای اشکالاتی باشد. برای دقت بیشتر، می‌توانید منبع اصلی را مطالعه کنید.