Антидиффамационная лига (ADL) недавно опубликовала самую полную на сегодняшний день оценку антисемитизма и антиизраильской предвзятости в моделях искусственного интеллекта, таких как ChatGPT от OpenAI, Claude от Anthropic, Gemini от Google и Llama от Meta. Исследователи предупреждают: без немедленного вмешательства компаний, ИИ может стать особенно эффективным инструментом для распространения конспирологических теорий и ненависти.
Центр технологий и общества (CTS) Антидиффамационной лиги исследовал реакции четырех ведущих моделей ИИ и выявил в каждой из моделей тревожные паттерны предвзятости, распространения ложной информации и избирательного подхода к темам, связанным с еврейским народом, Израилем и антисемитскими стереотипами.
Основные выводы отчета показали, что все четыре изученные языковые модели продемонстрировали антисемитскую и антиизраильскую предвзятость, хотя степень и характер этой предвзятости варьировались между моделями. Модель Llama компании Meta проявила наиболее явные антисемитские и антиизраильские предвзятости, отвечая ненадежно и иногда полностью ошибочно на вопросы, связанные с еврейским народом и Израилем.
Как единственная модель с открытым исходным кодом в группе тестирования, Llama заняла самое низкое место как по предотвращению предвзятости, так и по надежности. Кроме того, это единственная модель, которая получила самый низкий балл в ответ на вопрос о роли евреев в теории заговора "Великое замещение".
ChatGPT и Claude продемонстрировали значительную анти-израильскую предвзятость, особенно в ответах, касающихся войны между Израилем и ХАМАСом. Эти модели сталкивались с трудностью предоставления последовательных и фактически обоснованных ответов. Модели языка отказывались отвечать на вопросы об Израиле гораздо чаще, чем на вопросы по другим темам, что указывает на тревожную непоследовательность в том, как эти модели обрабатывают политические и исторические вопросы.
Одновременно было обнаружено, что модели демонстрируют тревожную неспособность точно отклонять теории заговора и антисемитские изображения, что подчеркивает задачу по предотвращению распространения дезинформации с помощью искусственного интеллекта.
"Модели языка уже интегрированы в учебные классы, на рабочие места и в процессы принятия решений по мониторингу контента в социальных сетях. Однако наши результаты показывают, что они недостаточно обучены для предотвращения распространения антисемитизма и ложной информации против Израиля", — заявил Дэниел Келли, временный директор Центра технологий и общества при Антидиффамационной лиге.
"Искусственный интеллект меняет способ потребления информации людьми, но, как показывает это исследование, модели ИИ не защищены от предвзятостей, укоренившихся в обществе, — объяснил Джонатан Гринблатт, генеральный директор Антидиффамационной лиги. - Компаниям, занимающимся разработками в области искусственного интеллекта, необходимо предпринять активные шаги для устранения этих недостатков — от улучшения своих программ обучения до повышения точности политики мониторинга контента. Мы обязуемся сотрудничать с лидерами отрасли, чтобы гарантировать, что эти системы не превратятся в инструменты распространения ненависти и дезинформации".
По его словам, "когда такие модели усиливают распространение дезинформации или отказываются признавать определенные истины, они могут искажать общественное мнение и способствовать антисемитизму, и данный отчет служит предупреждением разработчикам ИИ, чтобы они взяли ответственность за свою продукцию и применили более надежные меры защиты от предвзятости".
► Методология
Лига исследовала инструменты искусственного интеллекта, направив каждой модели список утверждений и попросив указать степень согласия с каждым из них в шести областях, связанных с антисемитизмом и предвзятостью против Израиля. Затем были проанализированы паттерны, представленные в ответах.
Каждая из крупных языковых моделей (LLM) была опрошена 8,600 раз, в общей сложности было собрано и проанализировано 34,400 ответов. Похожая методология использовалась для оценки других видов предвзятости, таких как политическая, управленческая и прочие.
Этот проект является первым этапом более широкого исследования, проводимого Лигой по теме языковых моделей и антисемитских предубеждений. Представленные в отчете выводы подчеркивают необходимость улучшения механизмов защиты и стратегий снижения предвзятости в индустрии искусственного интеллекта в целом.