대장내시경 영상에서 ‘정보성 프레임’ 선별 알고리즘 개발

능동학습 기반 알고리즘 ‘AD-BALD’ 개발해 16만 프레임 대장내시경 데이터셋 구축
정보·비정보성 프레임 분류, 전체 데이터의 9%만 직접 라벨링, 알고리즘 분류 정확도 0.975 달성
서울대병원 영상의학과 이동헌 교수 강남센터 소화기내과 진은효 교수 연구팀

서울대병원 연구팀이 대장내시경 영상에서 진단 가치가 높은 프레임을 효율적으로 선별하는 알고리즘을 개발하고, 이를 기반으로 16만 프레임 규모의 데이터셋을 구축했다. 연구팀은 전체 영상의 9%만 직접 판독하고도 알고리즘 분류 정확도 0.975와 대규모의 데이터셋을 확보했다. 이는 향후 대장내시경 AI 연구의 시간과 비용을 줄이는 기반이 될 것으로 기대된다.

대장내시경은 암 예방을 위한 필수 검사지만, 검사 과정에서 화면 흐림이나 거품 등으로 영상 품질이 저하되는 문제가 발생한다. 이처럼 진단 가치가 낮은 ‘비정보성 프레임’은 인공지능 모델의 학습 효율을 떨어뜨리고, 실시간 진단 보조 시스템의 정확도를 저해하는 주요 원인으로 지목돼 왔다.

▲[왼쪽부터] 서울대병원 영상의학과 이동헌 교수,

서울대병원 강남센터 소화기내과 진은효 교수

서울대병원 영상의학과 이동헌 교수와 강남센터 소화기내과 진은효 교수 연구팀은 소량의 데이터셋만으로도 정보성 대장내시경 영상을 효율적으로 분류할 수 있는 능동학습 기반 알고리즘 ‘AD-BALD’를 개발하고, 이를 활용해 서울대병원 강남센터·충남대병원의 실제 임상 데이터와 글로벌 공공 데이터를 통합한 16만 프레임 규모의 데이터셋 ‘InfoColon’을 구축했다고 23일 밝혔다.

연구팀이 개발한 알고리즘은 AI가 스스로 분류하기 모호한 내시경 영상을 골라 전문가에게 확인을 요청하는 방식으로, 적은 양의 데이터만으로도 고품질의 학습 데이터셋을 구축하는 것이 특징이다. 연구팀은 영상을 진단 가치가 높은 ‘정보성 프레임’과 ‘비정보성 프레임’ 6종(장벽, 거품, 흐림, 조명 불량, 도구, 장애물)으로 구분했으며, 전체 데이터의 약 9%(12,663프레임)만 직접 라벨링하고도 알고리즘을 활용해 16만 프레임 규모의 데이터셋을 완성했다.

데이터셋 구축에 활용된 알고리즘은 분류 정확도 지표인 AUROC에서 최대 0.975를 기록했다. 이는 제한된 인력과 비용으로도 고품질의 의료 데이터를 생성할 수 있음을 의미한다.

나아가 연구팀은 알고리즘이 선별한 정보성 프레임을 활용해 대장 내부 구조를 3차원 점구름(3D Point Clouds) 형태로 재구성하여 임상적·공학적 유용성을 입증했다. 이는 대장의 주름과 굴곡을 입체적으로 구현한 것으로, 향후 시술 중 병변을 놓치지 않도록 돕는 ‘내시경 내비게이션’ 기술로의 확장 가능성을 제시한 성과다.

이동헌 교수(영상의학과)는 “InfoColon은 비정보성 프레임 문제 해결을 위한 표준화된 학습 지침서”라며 “AD-BALD를 함께 활용하면 방대한 영상을 효율적으로 가공할 수 있어 차세대 내시경 AI 연구에 실질적인 도움이 될 것”이라고 강조했다.

한편 연구팀은 데이터셋 ‘InfoColon’과 ‘AD-BALD 구현 코드’를 공공 플랫폼(Synapse, GitHub)에 각각 공개했으며, 이번 연구 결과는 네이처 자매지 ‘Scientific Data’ 최신호에 게재됐다.

[이미지1] InfoColon 구축 및 평가 과정 개요

[이미지2] InfoColon 프레임 유형

연구

대장내시경 영상에서 ‘정보성 프레임’ 선별 알고리즘 개발

온코닉테라퓨틱스 ‘네수파립'AACR 2026에서 비임상 연구 발표

장시간 앉은 자세 유지때는 ‘통증’ 주의

상처 치료 자율 조절하는 스마트 패치 나와

병원협회 첫 여성 회장 탄생…‘유경하’ 이화여대의료원장

전자담배 폐 뿐아니라 전신의 여러 장기에 독성 유발

2형당뇨병 여성 가임기간 길수록 치매 위험 낮아

최근 인기기사