На экзаменах для врачей в Израиле лучшие результаты показал ChatGPT

Искусственный интеллект оставил врачей позади при сдаче таких дисциплин, как терапия и психиатрия
Эйтан Гефен, Ynet|19.04.24 | 14:23
На печать Нашли техпроблему? Сообщите нам
Похожие темы
Здоровье
Наука
Медицина
Искусственный интеллект
Технологии
2 Еще фото
 
(Фото: shutterstock)
Израильские исследователи решили проверить, способен ли искусственный интеллект сдать экзамены на лицензию врача-специалиста. В результате ChatGPT, получивший вопросы экзамена, сдал их с более высокими оценками, чем живые врачи. Результаты исследования опубликованы в авторитетном журнале The New England Journal of Medicine AI. Результаты этой работы, проводившейся на базе тель-авивской больницы "Ихилов", дают дополнительное свидетельство стремительного развития возможностей ИИ. 
Исследование проводили д-р Эран Коэн, ординатор в области психиатрии в центре психического здоровья "Лев ха-Шарон", и д-р Уриэль Кац, ординато больницы "Вольфсон" в Холоне, при участии профессора Идо Вольфа, заведующего онкологическим комплексом больницы "Ихилов", и Ассоциации врачей Израиля. 
"ИИ всегда вызывал у нас интерес, - говорит д-р Коэн. - Год назад мы решили проверить возможности ChatGPT. О нем в свое время было много разговоров, его новая версия оказалась особенно удачной. Мы задумались над тем, как проверить его потенциал в сфере медицины. И у нас возникла идея предложить ему сдать экзамены первого этапа для врачей-ординаторов. Мы выбрали 5 основных специализаций в медицине - педиатрию, психиатрию, общую хирургию, гинекологию и терапию". 
Ошибок у хирургов в Израиле будет меньше благодаря искусственному интеллекту
Результаты тестирования оказались приятным сюрпризом: ChatGPT смог успешно сдать все экзамены. "Мы поняли, что он может не только отвечать на вопросы, но и получать проходной балл, - объясняет д-р Коэн. - Для нас выявление его способностей стало настоящей сенсацией. Мы начали свое исследование в одиночку и скоро поняли, что в нашем распоряжении есть то, о чем хотел бы узнать весь мир, хотя и не очень понимали, что делать с этим инструментом". 
2 Еще фото
Д-р Эран Коэн и д-р Уриэль Кац 
(Фото: пресс-слкжба больницы "Ихилов")
Д-р Коэн и д-р Кац обратились к проф. Идо Вольфу, заведующему онкологическим комплексом больницы "Ихилов". "О его готовности помогать молодым ординаторам в их научных исследованиях известно всем, - рассказывает д-р Коэн. - Он согласился проинструктировать нас и способствовать продвижению нашей работы, результаты которой были в итоге опубликованы". При содействии проф. Вольфа доктора обратились в Ассоциацию врачей, которая предоставила им официальные данные о результатах сдачи экзаменов ординаторами в 2022 году. "Они согласились сотрудничать с нами и поделиться имеющейся в их распоряжении информацией. Я очень им за это признателен", - добавляет д-р Коэн. 
►Человек и машина: кто лучше
В ходе эксперимента д-ра Коэн и Кац загрузили в две версии ChatGPT - 3,5 и 4 - вопросы, содержавшиеся в квалификационных экзаменах по таким специальностям, как педиатрия, гинекология, общая хирургия, психиатрия и терапия. Каждый чат включал 120 вопросов для определения способности ИИ отвечать на них последовательно. Полученные ответы затем сравнили с таковыми 849 ординаторов, которые сдавали те же экзамены. 
Спрос на обучение искусственному интеллекту в Израиле за полгода вырос на 500%
"Каждое распределение результатов представляло интерес, - говорит д-р Коэн. - Мы поняли, что только ChatGPT-4 способен сдать экзамен, более того, по некоторым специальностям он получил более высокие оценки, чем ординаторы. Рост возможностей обеих версий ИИ демонстрирует существенный прогресс уровня этого инструмента всего за год. Это иллюстрируется возможностями каждой из версий ChatGPT: вариант 3,5 не смог сдать экзамен, в отличие от варианта 4. А интервал между выходом в свет этих версий составляет всего год. Это технологический прорыв и историческое достижение. Есть и критика нашего исследования, говорят, что понятно, что языковая модель ИИ сможет сдать экзамен. Но это не совсем так, ведь версия 3,5 не смогла это сделать". 
►Интересные данные
ChatGPT-4 почти не давал неправильных ответов, тогда как их доля в результатах ординаторов по разным специальностям составила 25%. "Речь идет об экзамене по всему теоретическому материалу, входящему в программу ординатуры, подготовка к нему занимает длительное время. Экзамену предшествуют 3 месяца интенсивной учебы, некоторые ординаторы берут месячный отпуск, чтобы изучить весь необходимый материал. В некоторых группах отмечались 30% неправильных ответов, что стало большой разницей с результатами ChatGPT, который всегда отвечал правильно". 
Но при этом средний балл, полученный ординаторами и ИИ, почти одинаков, но результаты ChatGPT были постоянно стабильными, тогда как разброс оценок ординаторов составил от 30 до 85. А в таких специальностях, как терапия и психиатрия, ChatGPT смог добиться лучших результатов, чем большинство ординаторов. 
С другой стороны, ChatGPT ни разу не смог получить оценку выше лучшего из своих живых конкурентов. "ИИ не смог превзойти крепких профессионалов в своей области", - говорит д-р Коэн. 
- Может ли ИИ в будущем вытеснить людей из медицины?
- Необязательно. Нас впечатляет реакция мира на развитие ИИ. Это говорит о многом, но совершенно необязательно, что это будет иметь последствия в будущем. Результаты нашего исследования не следует интерпретировать как доказательство превосходства ИИ над живыми врачами. Мы всего лишь демонстрируем уровень, которого достигли технологии. 
То, что ChatGPT может успешно сдавать квалификационные экзамены, лишь показывает степень зрелости технологии, способам применения которой еще следует научиться. Мы, скорее, получили картину того, где мы находимся, а не делаем всеохватывающие выводы.
Смотрите, каково различие в возможностях версий ChatGPT 3,5 и 4. А что будет через еще один год? Надо привыкнуть к тому, что скорость развития технологий отличается от таковой у людей. 
- И какие возможности появятся в будущем благодаря ИИ?
- Он может сократить затраты времени врача на поиск и обработку информации. Мы об этом написали и в своем исследовании: что следует развивать сотрудничество между врачами и инструментами ИИ для повышения эффективности работы. Есть много информации во многих книгах. Длина записей в медицинских картах растет из года в год. Несколько десятилетий назад было известно о 3 белках крови, сейчас есть целая книга о ее компонентах. Объем информации становится гигантским. Надо интегрировать ИИ в медицинскую практику, чтобы повысить уровень медицины будущего. 
В свете поразительных результатов этого исследования Ассоциация врачей Израиля рассматривает возможности использования имеющейся в ее распоряжении большой базы данных для будущих научных работ. "Мы намерены провести широкомасштабное исследование по данному вопросу в ближайшем будущем, - говорит проф. Рон Элишар, председатель главной экзаменационной комиссии научного совета Ассоциации врачей. - Научный совет располагает уникальной базой данных о квалификационных экзаменах за 30 лет, и это может стать источником необходимой и полезной информации". 
Подробности на иврите читайте здесь
Перевод: Даниэль Штайсслингер