아는 만큼 보인다

ROC 곡선에 기반해 최적의 cut-off 찾는 방법 - Youden's J statistic (Youden's Index) 이용하기 본문

통계

ROC 곡선에 기반해 최적의 cut-off 찾는 방법 - Youden's J statistic (Youden's Index) 이용하기

계토 2023. 6. 21. 13:34

의학 논문을 보다보면 Youden's Index를 이용해 cut-off 를 정했다는 말을 종종 볼 수 있다. 머신러닝/딥러닝을 이용한 의학 논문 뿐 아니라 의학 논문 전반에 걸쳐서 볼 수 있는데, Youden's Index는 이분법적 진단 검사에서 ROC 분석을 할 때 특정 cut-off에 따른 진단 검사의 성능을 보여주는 값으로, cut-off를 정하기 위한 성능을 평가하는 데에 이용되는 보편적인 방법이기 때문이다. 흥미로운 부분은, 다른 머신러닝/딥러닝 응용 분야는 잘 모르겠지만 의학 쪽 머신러닝/딥러닝 응용 분야에서는 이 Youden's Index를 꽤 심심치 않게 볼 수 있다는 사실이다. 특히 의학+머신러닝/딥러닝 분야에서 아무런 고려 없이 그냥 0.5를 cut-off로 쓰게 되면 지적을 받게 될 수도 있다. 너의 cut-off는 근거 기반 cut-off이니..? 왜 그 cut-off를 사용했니?! 

 

ROC curve는 cut-off 가 달라질 때 sensitivity와 1-specificity 가 어떻게 변하는지 그래프로 나타낸 curve이다. 이 때 그럼 cut-off를 무엇으로 했을 때 성능이 가장 좋다고 할 수 있는가? 그럼 그 성능은 어떻게 평가할까? 라고 했을 때 Youden's Index를 사용할 수 있다.

 

J (Youden's J statistic, Youden's Index) = sensitivity + specificity -1

 

보통 -1에서 1사이의 값을 가지고, 1에 가까울 수록 완벽한 값이라고 한다. 값 자체는 sensitivity - (1 - specificity) 이므로, 아래 그림에서 처럼 ROC curve와 y=x 사이의 세로선 길이가 Youden's Index이다.

출처: https://en.wikipedia.org/wiki/Youden%27s_J_statistic

즉 모든 ROC curve의 지점?point?마다 Youden's Index를 구할 수 있으며, Youden's Index를 최대로 하는 cut-off를 찾는 방식으로 최적의 cut-off 찾을 수 있다이 J가 최대로 되는 cut-off를 사용하게 되면 그래도 근거 기반 cut-off 를 설정했다고 말할 수 있을 것 같다.

 

Youden's Index 자체는 '이분법적 상황'에만 적용되는 지표이며, multiclass 상황으로 일반화한 지표가 Informedness라는 지표라고 한다. 

 

찾아보다 보면 Youden's Index의 한계점을 지적하며 새로운 지표가 많이 제안되어 온 듯 하지만, Youden's Index 자체는 여전히 많이 쓰이고 있는 것 같다.

 

주로 Wikipedia를 참고했는데, Youden's Index를 포함하여 다른 지표들이 무엇이 있는지 알고 싶다면 Defining an Optimal Cut-Point Value in ROC Analysis: An Alternative Approach (https://www.hindawi.com/journals/cmmm/2017/3762651/)를 추천한다. 새로운 지표를 제안하고 있는 논문이지만 2번 섹션에서 기존의 지표들을 간략하게 잘 서술해놓고 있다.