챗GPT의 심혈관 질환 예측 정확도 입증

미국심장학회·심장협회 위험 점수와 성능 유사
용인세브란스병원 배성아·윤덕용 교수 연구팀

연세대학교 의과대학 용인세브란스병원심장내과 배성아 교수, 의생명시스템정보학교실 윤덕용 교수 연구팀(공동 제1저자 한창호·김동원·김송수 연구원)이 챗GPT의 심혈관 질환 예측 정확도를 입증했다.

최근 챗GPT 등의 대규모 언어 모델은 사회 전반에서 폭넓게 활용되고 있다. 특히 GPT-4 모델 기반의 챗GPT(이하 GPT-4)는 미국의 의사면허시험(USMLE)에서 90% 이상의 정답률로 합격했을 뿐 아니라 선천성 희귀병 진단과 같은 의학 분야에서도 뛰어난 성능을 보였다. 하지만 그간 환각 현상과 정확성·편향성 문제 등으로 인해 인공지능(AI)을 의료 분야에 적용하는 것은 쉽지 않았다.

연구팀은 대규모 환자 코호트 데이터인 영국 바이오뱅크(UK Biobank)의 약 5만 명, 한국인유전체역학조사사업(KoGES)의 약 6천 명 환자의 나이, 병력, 피검사 자료를 바탕으로 GPT-4의 심혈관 질환 발생 예측 능력을 평가했다.

환자들의 10년간 심혈관 질환 발생을 예측한 결과, GPT-4는 실제 심혈관계 질환 예측에 널리 사용되는 모델인 프레이밍햄 위험 점수(Framingham Risk Score) 및 미국심장학회·심장협회(ACC·AHA)의 위험 점수와 유사한 성능을 나타냈다. 분석에는 모델의 정확도를 나타내는 통계 기법인 수신기 작동 특성 곡선 아래 면적(AUROC)을 활용했다.

▲ 영국 및 국내 환자의 10년간 심혈관 질환 발생을 예측한 결과 프레이밍햄 위험 점수(Framingham Risk Score), 미국심장학회·심장협회(ACC·AHA) 위험 점수 등 기존에 널리 사용되는 모델과 GPT-4 모델의 수신기 작동 특성 곡선 아래 면적(AUROC) 값이 유사한 것으로 나타났다.

윤덕용 교수는 “GPT-4는 의료용으로 만들어지지 않았지만 대규모 학습 데이터로부터 적절한 의료 지식을 습득했고, 이에 따라 여러 심혈관 질환 위험 변수를 적절히 결합하면 유의미한 결과를 도출할 수 있다는 가설을 확인했다”라고 설명했다.

배성아 교수는 “이번 연구는 최초로 대규모 언어 모델을 기반으로 한 심혈관 질환 예측의 정확성과 유용성을 입증했다는 점에서 의미가 있다”라며 “향후 GPT-4 모델이 의료 분야에서 유망한 도구로 활용되길 기대한다”라고 밝혔다.

연구 결과는 최근 세계적인 과학 저널 셀(Cell)이 출간하는 국제 학술지 ‘iScience(IF 5.8)’에 게재됐다.

한편, 이번 연구를 지원한 용인세브란스병원 디지털의료산업센터(소장 박진영)는 세계 최고의 스마트 병원 육성을 목표로 디지털 의료 생태계 구축을 선도하고 있다. 특히 국내 의료기관 최초로 구축한 5G 인빌딩 통신망을 기반으로 실시간 위치 추적 시스템(RTLS), 통합반응상황실(IRS), 의료서비스로봇 등 다양한 디지털 솔루션을 운영하고 있다.

연구