В первом анализе приняли участие 1 050 пациентов, которые должны были оценить переданные им рекомендации с точки зрения надежности, понятности и эмпатичности по шкале от 1 до 7 баллов. Эмпатичность советов, которые, по мнению пациентов, были подготовлены «живым» врачом, респонденты в среднем оценили на 5,1 балла. Показатель у рекомендаций, помеченных маркировкой «ИИ» или «врач-человек + ИИ», был одинаковым и составил 4,9 балла. Оценивая надежность ответов «врача-человека», пациенты в среднем выставляли 5,75 балла, те же рекомендации, но подготовленные ИИ или врачом совместно с языковой моделью, респонденты в среднем оценили на 5,5. Понятность всех вариантов медицинских советов участники исследования оценили примерно одинаково – на 5,8.
Во втором эксперименте с участием 1 230 человек ученые дополнительно измерили индивидуальную готовность пациентов следовать медицинским рекомендациям. Шкала оценки была также изменена: теперь участники оценивали ответы по шкале от 1 до 5 баллов. Респонденты снова отметили, что советы, якобы подготовленные только врачом, были более эмпатичными и надежными. При этом оценка понятности рекомендаций, так же как и в первом анализе, имела незначительные различия. Готовность следовать советам реального врача участники оценили на 4,15 балла. Пациенты, считавшие, что рекомендации подготовил ИИ или врач совместно с ИИ, были более сдержанными и поставили по этому показателю 4 балла.
Как поясняют авторы исследования, такие результаты подчеркивают, что общественность воспринимает врачей как более подходящий источник специализированной информации. Также ученые отмечают: люди верят, что ответы, сгенерированные ИИ, не отличаются оригинальностью, а предоставленные языковыми моделями рекомендации могут не учитывать индивидуальные характеристики пациентов. Поиск способов противодействия такой предвзятости исследователи считают важной целью при внедрении ИИ в систему здравоохранения.
В настоящее время в научном сообществе наблюдается тенденция к более настороженному отношению к использованию LLM (больших языковых моделей) в здравоохранении. Так, в июле 2024 года ВОЗ в обновленной версии руководства по лабораторной биобезопасности подчеркнула, что ИИ может помочь улучшить здоровье населения, но также этот инструмент может быть использован не по назначению, в частности, для создания новых вирусов и токсичных материалов. Помимо этого, в ВОЗ отметили, что модели могут генерировать недостоверную информацию из-за данных, по которым их обучали.
В том же месяце группа ученых из Германии, Великобритании и США представила исследование, в котором отметила низкую точность выставляемых LLM диагнозов и трудность внедрения технологий в реальные рабочие процессы из-за частого нарушения ИИ инструкций, их чувствительности к количеству и порядку предоставляемой для анализа информации.