Учёные выяснили, что современные языковые модели искусственного интеллекта, такие как ChatGPT, способны эффективно диагностировать заболевания, если анализируют описания, подобные тем, что встречаются в медицинских учебниках. Однако, когда дело доходит до анализа симптомов, описанных самими пациентами, эти модели часто ошибаются.
Интересно, что несмотря на отсутствие первоначальной специализации на медицине, многие люди всё чаще обращаются к искусственному интеллекту для самодиагностики. Согласно опросу , проведённому в 2023 году Университетом Вирджинии, 78,4% респондентов готовы использовать ChatGPT для оценки своего здоровья.
Технологии ИИ уже прочно вошли в медицину, где успешно выполняют различные задачи, включая анализ медицинских изображений и автоматизацию рутинных процессов. Многочисленные исследования подтверждают потенциал ChatGPT в здравоохранении. Например, этот ИИ хорошо справляется с предоставлением консультаций по вопросам психического здоровья, управлением медикаментозным лечением и обучением пациентов. Однако, как показывают данные, точность ChatGPT в диагностике заболеваний у детей составляет всего 17%.
Особенно сложными для ИИ оказываются задачи, связанные с диагностикой генетических заболеваний. Недавнее исследование , проведённое Национальными институтами здравоохранения США (NIH) и опубликованное в American Journal of Human Genetics, показало, что популярные ИИ-инструменты, такие как Llama-2-chat, Vicuna, Medllama2, Bard/Gemini, Claude и разные версии ChatGPT, могут успешно диагностировать генетические заболевания, если получают информацию, представленную в формате медицинских справочников. Однако, точность диагностики резко падает, когда модели сталкиваются с описаниями симптомов, составленными пациентами.
В исследовании учёные протестировали десять языковых моделей, задавая им вопросы, основанные на 63 различных генетических заболеваниях. Вопросы охватывали как распространённые заболевания, такие и редкие генетические расстройства. Для каждого заболевания выбирались три-пять симптомов, которые формулировались в виде простого вопроса: «У меня есть такие-то симптомы. Какое генетическое заболевание наиболее вероятно?».
Результаты показали, что точность диагностики значительно варьировалась в зависимости от модели, начиная с 21% и достигая 90%. Наиболее успешной оказалась модель GPT-4. Однако, когда учёные попытались упростить язык вопросов, заменяя медицинские термины на более простые, точность моделей снизилась.
Для проверки того, как хорошо модели работают с реальной информацией от пациентов, исследователи попросили больных описать свои симптомы и генетические заболевания в свободной форме. Эти описания сильно отличались по длине и содержанию от тех, что используются в учебниках, что значительно затруднило работу ИИ. Самая точная модель смогла правильно поставить диагноз лишь в 21% случаев, а некоторые модели показали катастрофически низкую точность — всего 1%.
Учёные подчёркивают, что для того, чтобы языковые модели действительно могли использоваться в клинической практике, необходимо значительно расширить объём данных, на которых они обучаются. Важно, чтобы эти данные отражали разнообразие пациентов, учитывая такие параметры, как возраст, раса, пол и культурные особенности. Только тогда искусственный интеллект сможет лучше понимать, как разные люди описывают свои симптомы и состояния.
Источник: SecurityLab