정확성이 획기적으로 향상된 코로나19 영상 AI 진단 기술 개발

KAIST 예종철 교수 연구팀, 영상판독전문가 보다 약 17%나 정확성이 높아진 흉부 엑스선 영상 코로나19 진단 기술을 개발
선별 진료에 활용 시, 신속한 진단과 한정된 의료 자원의 효율적인 배분 기대

(사진제공=KAIST)그림 1. 제안하는 코로나19 진단 알고리즘을 통해 얻은 코로나19 확률 분포 특징 지도의 예(제안하는 코로나19 진단 알고리즘을 통하여 얻은 코로나19 확률 분포 특징 지도의 예. 다른 병변에서는 의심되는 영역이 거의 나타나지 않았으나 코로나19의 경우 고화질로 의심이 되는 부분이 표시되는 것을 볼 수 있다)

(대전=세종충청뉴스) 송윤영 기자 = KAIST(총장 신성철)는 바이오및뇌공학과 예종철 교수 연구팀이 흉부 단순 방사선 촬영 영상으로 신종 코로나바이러스 감염증(이하 코로나19) 진단의 정확성을 획기적으로 개선한 인공지능(AI) 기술을 개발했다고 25일 밝혔다.

예 교수 연구팀이 개발한 인공지능 기술을 사용해 코로나19 감염 여부를 진단한 결과, 영상 판독 전문가의 69%보다 17%가 향상된 86%이상의 우수한 정확성을 보였다고 KAIST 관계자는 설명했다.

이 기술을 세계적으로 대유행하는 코로나19 선별 진료(Triage)체계에 도입하면 상시 신속한 진단이 가능할 뿐만 아니라 한정된 의료 자원의 효율적인 사용에 큰 도움을 줄 것으로 기대된다.

오유진 박사과정과 박상준 박사과정이 공동 1저자로 참여한 이 연구 결과는 국제 학술지 `아이트리플이 트랜잭션 온 메디컬 이미징(IEEE transactions on medical imaging)'의 `영상기반 코로나19 진단 인공지능기술' 특집호 5월 8일 字 온라인판에 게재됐다. (논문명 : Deep Learning COVID-19 Features on CXR using Limited Training Data Sets)

현재 전 세계적으로 확진자 500만 명을 넘긴 코로나19 진단검사에는 통상 역전사 중합 효소 연쇄 반응(RT-PCR, Reverse Transcription Polymerase Chain Reaction)을 이용한 장비가 사용된다. RT-PCR 검사의 정확성은 90% 이상으로 알려져 있으나, 검사 결과가 나오기까지는 많은 시간이 걸리며 모든 환자에게 시행하기에 비용이 많이 든다는 단점이 있다.

컴퓨터 단층촬영(CT, Computed Tomography)을 이용한 검사도 비교적 높은 정확성을 보이지만 일반적인 X선 단순촬영 검사에 비해 많은 시간이 소요되고 바이러스에 의한 장비의 오염 가능성 때문에 선별 진료에 사용되기 어렵다.

흉부 단순 방사선 촬영(CXR, Chest X-ray)은 여러 폐 질환에서 표준 선별 검사로 활용되고 있지만 코로나19에는 RT-PCR와 CT 검사에 비해 정확성이 현저하게 떨어진다. 그러나, 최근 팬데믹으로 세계 각국에서 확진자 수가 급증함에 따라 비용이 적게 들어가고 검사방법이 용이한 CXR 검사를 정확성을 높여 활용하자는 요구가 증가하고 있다.

그동안 심층 학습(Deep Learning) 기법을 적용해 CXR 영상을 통해 코로나19를 진단하는 여러 연구사례가 보고되고 있지만 진단 정확성을 높이기 위해서는 많은 양의 데이터 확보가 필수적이며 현재와 같은 비상 상황에서는 일관되게 정제된 대량의 데이터를 수집하기가 극히 어렵다.

예 교수 연구팀은 자체 개발한 전처리(Preprocessing)와 국소 패치 기반 방식(Local Patch-based Approach)을 통해 이런 문제점을 해결했다. 적은 데이터 세트에서 발생할 수 있는 영상 간 이질성(Heterogeneity)을 일관된 전처리 과정으로 정규화한 뒤, 국소 패치 기반 방식으로 하나의 영상에서 다양한 패치 영상들을 얻어냄으로써 이미지의 다양성을 확보했다.

또 국소 패치 기반 방식의 장점을 활용한 새로운 인공지능 기술인 `확률적 특징 지도 시각화(Probabilistic Saliency Map Visualization)' 방식을 활용해 CXR 영상에서 코로나19 진단에 중요한 부분을 고화질로 강조해주는 특징 지도를 만들었는데 이 지도가 진단 영상학적 특징과 일치하는 것을 확인했다.

예종철 교수는 "인공지능 알고리즘 기술을 환자의 선별 진료에 활용하면 코로나19 감염 여부를 상시 신속하게 진단할 수 있고 이를 통해 가능성이 낮은 환자를 배제함으로써 한정된 의료 자원을 보다 우선순위가 높은 대상에게 효율적으로 배분할 수 있게 해줄 것ˮ 이라고 말했다.

한편, 이 연구는 한국연구재단 중견연구자지원사업의 지원을 받아 수행됐다.

□ 연구 개요

2019년 12월 중국 우한에서 첫 사례가 보고되어 2020년 5월 전 세계 확진자 500만 명을 돌파한 코로나바이러스19 감염증은 새로운 유형의 코로나바이러스 (SARS-CoV-2)에 의해 발생하는 호흡기 감염질환이다. 코로나바이러스19에 감염되면 약 2 - 14일의 잠복기를 거친 뒤 발열이나 기침, 호흡 곤란 등의 호흡기 증상이 주 증상으로 나타난다. 각각 2003년, 2015년에 대유행하여 전 세계를 불안에 떨게 하였던 사스 (SARS) 혹은 메르스 (MERS)와 비교하여, 코로나바이러스19 감염증은 치명률은 다소 낮으나, 전염력이 상기 두 감염질환보다 큰 것으로 추정되며 전 세계적인 대 유행이 확산되고 있다. 영상의학적으로는 다발성 간유리음영(Multiple Ground-grass opacity), 다발성 폐 경화증 (Multiple patch consolidation) 등의 소견을 보이며, 진단은 임상 증상의 의심되는 환자에게 역전사 중합효소 연쇄반응(Reverse Transcription Polymerase Chain Reaction: RT-PCR)을 이용한 진단 장비를 사용하여 확진한다.

RT-PCR은 DNA를 증폭시키는 중합 연쇄 반응의 한 종류로 RNA 바이러스를 진단하는 데 유용하다. 코로나바이러스-19와 같은 RNA 바이러스에서 해당 RNA만을 분리해낸 후, 추출한 RNA를 역전사 효소를 사용하여 cDNA (complementary DNA)로 합성한 뒤, cDNA를 증폭시켜 코로나바이러스19 감염 여부를 90% 이상의 높은 민감도로 확인할 수 있다. 또한, 흉부 컴퓨터 단층 촬영(Chest CT) 영상 또한 코로나바이러스 진단에 있어 90% 이상의 민감도를 보이는 것으로 보고되고 있다. 그러나 RT-PCR 검사의 경우 결과를 얻을 때까지 수 시간 이상이 소요되며, Chest CT 검사는 검사에 시간도 많이 소요될 뿐만 아니라 비용 소모도 크기 때문에 모든 환자에서 시행하기 어렵다는 한계점이 있다.

흉부 단순 방사선 촬영(Chest X-ray: CXR) 검사는 코로나바이러스19 진단에 있어 민감도가 임상 전문가 기준으로도 69% 정도로 RT-PCR 혹은 Chest CT에 비해서 낮다는 문제점이 있으나, 상대적으로 검사를 빠르게 진행할 수 있고 비용 소모가 적어 일차 선별 검사로 사용하기에 적합하다는 장점이 있다. 이와 같은 이유로, 최근 심층 학습 기술을 이용하여 X-ray 영상으로 코로나바이러스19 감염증을 진단하고자 하는 연구가 많이 보고되고 있다. 하지만 많은 경우 정제되지 않은 적은 데이터 세트를 사용했기 때문에 데이터 간 이질성(Heterogeneity)이 학습 시 편향(Bias)을 유발할 수 있고, 학습된 모델이 과적합(Overfitting) 되는 문제점이 있으며, 상대적으로 좋은 성능을 보여준 연구들도 신경망의 분류 결과를 효과적으로 시각화(Visualization) 하지 못했다는 한계점이 있다.

그러므로, 임상적으로 도움이 될 수 있는 코로나바이러스19 진단을 위한 인공지능 알고리즘을 개발하고자 한다면, 현재 코로나바이러스19의 전 세계적 대유행 상태에서 활용 가능한 데이터 세트가 적을 수밖에 없다는 점을 감안하여 적은 데이터 세트에서도 안정적으로 동작하는 알고리즘을 개발할 필요성이 있으며, 임상적으로 해석 가능한 특징 지도를 제공하여 임상 전문가들이 실제 진료에 도움을 받을 수 있도록 할 필요성이 있다.

본 연구에서 예종철 교수 연구팀이 제안한 알고리즘은 이와 같은 한계점들을 극복하고자 설계되었다. 구체적으로 예 교수 연구팀은 정상, 세균성 폐렴, 바이러스성 폐렴, 그리고 코로나19 감염증 환자의 CXR 영상을 수집한 뒤, 영상 간 이질성을 일관된 전처리(Preprocessing) 과정으로 정규화하여 학습의 편향을 방지했다. 또한, 코로나19 진단에 폐 영역 이외 영상의 영향을 최소화하기 위하여 각 영상에서 폐 영역 분할 (Segmentation)을 수행했다. 분할된 폐 영역에서 활용 가능한 영상 생체 지표(Imaging Biomarker)를 찾기 위하여 다수의 생체 지표 후보를 각 질병에 대하여 분석한 결과, 코로나19 환자에서 패치 간 강도 분포(Inter-patch intensity distribution) 지표가 다른 질병과 비교했을 때 통계적으로 유의미하게 구별된다는 것을 확인하였다.

이 결과에서 착안하여, 국소 패치 기반 방식(Local patch-based approach)을 사용하였고, 매번 서로 다른 임의의 영역을 잘라내어 학습함으로써 데이터 증강(Data augmentation) 효과를 얻어 적은 데이터로도 안정적인 학습이 가능하도록 하였다.

학습된 모델을 이용한 추론 시에는 임의로 얻은 충분한 수의 패치들을 활용하여 다수 투표(Majority Voting) 방식으로 영상 전체의 정보를 통합하여 최종 진단을 내릴 수 있도록 하였다. 패치 기반의 특징 지도들을 조합하는 과정에서 패치 방식의 장점을 살려 각각의 패치들에 패치가 해당 범주로 분류될 확률을 일종의 가중치로써 선형 결합(Linear Combination) 해주어 다발적인 병변을 모두 효율적으로 표시해 줄 수 있는 시각화 방식인 확률적 특징 지도 시각화(Probabilistic Saliency Map Visualization) 방법을 제안하였으며, 이는 폐 주위 부위에 다발성 병변을 보이는 코로나19의 특징에 더욱 적합한 시각화 방식이다.

실험 결과 예 교수팀에서 제안한 새로운 알고리즘은 영상 판독 전문가의 코로나19 진단 민감도인 69%에 비하여 17% 향상된 86%의 민감도를 보였으며, 데이터 세트 크기가 줄어들더라도 기존 방식보다 안정적으로 학습이 가능하다는 것을 확인하였다. 그리고 특징 지도를 통하여 코로나19 진단에 중요한 부분을 표시하였을 때도 코로나19 의심 환자에서 병변이 의심되는 여러 부위가 효과적으로 시각화되는 것을 확인할 수 있었다.

예 교수 연구팀에서 개발한 심층학습 기반의 알고리즘은 최근 문제가 되는 코로나19 감염증에 대하여 질환의 선별 진료 과정 (Triage)에 사용될 수 있으며, 코로나19 감염의 가능성이 낮은 정상, 세균성 폐렴이나 결핵 등의 환자를 CXR 영상 한 장으로 배제함으로써 제한된 의료 자원이 보다 우선순위가 높은 환자에게 효율적으로 분배될 수 있도록 하고, 의사와 환자의 시간과 비용을 크게 절감해 줄 가능성을 가질 것으로 기대된다.

□ 용어 설명

과적합(Overfitting) : 기계 학습에서 학습 데이터를 과하게 학습하는 것을 의미한다. 데이터 세트의 다양성이 부족할 경우 두드러지며, 학습 데이터가 실제 데이터의 일부이기 때문에 일어나는 현상으로 학습 데이터에서는 오차가 줄어드나 검증 데이터에서는 오차가 증가하는 현상을 보인다.

분할(Segmentation) : 디지털 영상에서 특정 물체를 좀 더 의미 있게 해석하기 위해 해당 물체의 픽셀 집합만으로 분리하는 과정이다. 의학적으로는 해부학적 구조의 연구나 진단을 위해 활용된다.

영상 생체 지표(Imaging Biomarker) : 이미지에서 검출 가능한 생물학적 특징을 의미한다. 의학적으로는 환자에서 특정 질병을 진단하기 위해 다수의 영상 생체 지표가 활용된다.

데이터 증강(Data augmentation) : 알고리즘의 일반화 성능을 증가시키기 위하여 데이터의 다양성을 늘리는 것을 의미한다. 하나의 데이터를 좌우/상하 반전, 밝기 조절, 회전, 늘이기/줄이기, 잘라내기 등의 방식을 통하여 여러 가지로 처리하여 데이터의 다양성을 증가시킬 수 있다.

특징 지도(Saliency Map) : 영상 처리 분야에서 관심 영역을 찾기 위한 방법으로, 심층 학습에서는 심층 신경망이 해당 결과값 (분류 과제에서 범주 등)을 내놓는 데 가장 중요한 역할을 한 부분을 강조하여 표현하는 특징 지도가 흔히 쓰인다.

송윤영 기자 다른기사 보기