Авторы публикации поясняют, что перед LLM, в перечне которых присутствуют Llama 2, разработанная компанией Meta (признана в РФ экстремистской организацией и запрещена), медицинские языковые модели Clinical Came и Meditron, была определена задача поставить диагноз и сформировать план лечения на основе анамнеза пациента (результаты физических осмотров, лабораторных исследований и отчеты о визуализациях). Исследователи проверяли не только точность вердикта ИИ, но и соблюдение им диагностических и лечебных рекомендаций, верность интерпретации анализов, а также возможность языковых моделей следовать инструкциям. Поведение и диагноз LLM ученые сравнивали с решениями практикующих врачей.
В точности постановки диагноза 80 случайно выбранным пациентам, как показывает исследование, LLM значительно уступают клиницистам. Наибольшее количество ошибок ИИ совершил при определении холецистита и дивертикулита: верность диагноза, поставленная языковыми моделями, в этих случаях варьировалась от 13% до 68%, врачи же определяли эти заболевания в 84–86% случаев. С точностью выводов врачей ИИ смог конкурировать исключительно при выявлении аппендицита – верность диагноза некоторых языковых моделей превысила показатели, продемонстрированные врачами, на 3-4%. Авторы исследования пояснили, что LLM могут качественно определять некоторые патологии, но не имеют на данный момент «диагностического диапазона» практикующих врачей.
В следующем эксперименте, в котором тестировались только Llama 2 и производные от нее языковые модели (так как медицинские LLM не рассчитаны на выполнение «незаложенных» в них задач), исследователи предложили ИИ самостоятельно указать всю информацию, необходимую ему для диагностики пациента. При таких условиях средняя точность диагноза, поставленная языковыми моделями, снизилась еще на 13% и составила 45–55%.
В ходе второго эксперимента специалисты выявили, что LLM часто не назначают обследований, предписанных диагностическими рекомендациями, не следуют лечебным рекомендациям, особенно в случаях с более тяжелыми формами патологий, и не способны интерпретировать результаты лабораторных исследований.
Проверяя возможность LLM следовать инструкциям и генерировать ответы, которые можно было бы оперативно использовать в других отделениях клиник, ученые выявили, что ИИ совершает ошибки в алгоритмах у каждого второго – четвертого пациента, а также предлагает использовать несуществующие инструменты в каждом втором – пятом случае.
Помимо этого, ответы языковых моделей отличались при незначительных изменениях формулировок запросов. В частности, ИИ выдавал иные ответы при изменении запроса «окончательного диагноза» формулировками «первичный диагноз» или «основной диагноз». Точность поставленного LLM диагноза, сообщается в исследовании, снижается и при предоставлении языковым моделям доступа к большему количеству результатов анализов. При этом для разных патологий точность выводов ИИ достигает наивысших показателей при предоставлении определенного перечня медицинских исследований.
В проведении анализа приняли участие сотрудники Мюнхенского технического университета, Центра им. Гельмгольца и университетской клиники Мюнхенского университета им. Людвига и Максимилиана в Германии, а также представители Имперского колледжа Лондона в Великобритании и сети частных некоммерческих больниц в США. Исследователи подчеркнули, что ранее возможности LLM в здравоохранении тестировались в структурно простых медицинских контекстах, где результаты ИИ зачастую превосходили показатели практикующих врачей.
Опасность неконтролируемого использования ИИ в здравоохранение в июле 2024 года отметила и ВОЗ – в обновленной версии руководства по лабораторной биобезопасности. В документе подчеркнуто, что ИИ может помочь улучшить здоровье населения, но также этот инструмент может быть использован не по назначению, в частности, для создания новых вирусов и токсичных материалов. Помимо этого, в ВОЗ отметили, что модели могут генерировать недостоверную информацию из-за данных, по которым их обучали.