ИИ от Google набрал 86,5% на медицинском тесте

Исследователи Google разработали специальное LLM, которое набрало 86,5% в тесте из тысячи вопросов, многие из которых в стиле экзамена на получение медицинской лицензии в США. Команда врачей постоянно оценивала ответы ИИ как лучшие, чем ответы людей.

Эта модель превзошла все предыдущие модели. Обычно проходной балл человека по USMLE составляет около 60% (что также превосходит предыдущая модель).

Группа из 15 врачей предпочла ответы Med-PaLM 2 реальным ответам врачей на 1066 стандартизированных вопросов. Врачи считали, что ответы ИИ лучше отражают медицинский консенсус. У исследования есть несколько недостатков, на которые исследователи стараются указать, чтобы мы не экстраполировали слишком много из этого исследования (даже если оно представляет собой новую веху). Реальная жизнь сложнее: вопросы MedQA, как правило, более общие, в то время как вопросы из реальной жизни требуют тонкого понимания и контекста, который не был полностью проверен.