수의학 AI 정확도가 높아지면 AI 안정성도 함께 높아질까?

5월 17일
3분 분량

최종 수정일: 5월 17일

Safety and Accuracy Follow Different Scaling Laws in Clinical Large Language Models 리뷰

의료AI와 임상 의사결정 지원 시스템(CDSS)에서 대형언어모델(LLM)을 활용하려는 시도는 확산되고 있습니다. 우리는 흔희 “더 큰 모델, 더 긴 컨텍스트, 더 정교한 retrieval, 더 많은 inference-time compute”를 AI 정확성을 높이고 안정성을 향상시키는 방법으로 가정합니다.

그러나 평균 정확도가 높아진다고 해서 임상적으로 안전한 모델인가?

최근 공개된 Preprint 논문⌈Safety and accuracy follow different scaling laws in clinical large language models⌋은 이 질문을 정면으로 다루고 있습니다.

임상 LLM에서 정확도와 안정성은 같은 방향으로 움직일 수는 있지만, 동일한 지표는 아닙니다. 특히 의료 AI와 수의학AI처럼 실제 진료 판단에 영향을 줄 수 있는 시스템에서는 평균 정확도만으로 모델의 안정성을 평가하기에 부족합니다.

SaFE-Scale 프레임워크와 RadSaFE-200의 핵심

이 논문은 임상 LLM의 안전성을 평가하기 위해 SaFE-Scale 프레임워크와 RadSaFE-200 벤치마크를 제안하고 있습니다. RadSaFE-200은 영상의학 객관식 200문항으로 구성되어 있으며, 단순히 정답과 오답을 구분하는 데 그치지 않고, 각 보기마다 임상의가 사전에 정의한 네 가지 옵션 단위 라벨을 부여합니다.

High-risk error (임상적 해를 유발할 수 있는 오답)
Unsafe answer (가이드라인에 정면 배치되는 답)
Contradiction (제공된 근거를 부정하는 답)
Dangerous overconfidence (고위험 오답을 ≥80% confidence로 단언)

주요 결과: AI 정확도와 AI 안정성은 디커플링될 수 있다

연구진은 Qwen, Llama, Gemma, MedGemma, DeepSeek, Mistral, OpenAI-OSS 계열을 포함한 34개 LLM을 6가지 배포 조건에서 평가했다. 결과는 의료 AI 개발자와 CDSS 설계자에게 중요한 시사점을 제공합니.다

가장 인상적인 결과는 clean evidence, 즉 임상의가 작성하거나 정제한 고품질 근거가 단일 변수로서 가장 큰 안전성 개선을 만들었다는 점이며, 중요한 점은 34개 모델 모두 같은 방향으로 이동했다는 것입니다.

평균정확도 상승 73.5% → 94.1%
High Risk 에러 감소 12.0% → 2.6%
Dangerous Overconfidence 감소 8.0% → 1.6%

이는 단순히 모델 크기를 키우는 것 보다 근거의 품질을 높이는 것이 의료 AI 안정성에 더 직접적인 영향을 줄 수 있다는 점을 보여줍니다.

반면 standard RAG와 agentic RAG는 평균 정확도를 일부 개선했지만(76.0% → 78.1%), high-risk error와 dangerous overconfidence를 충분히 낮추지는 못한 것으로 확인되었고, 특히 agentic RAG는 standard RAG보다 정확도는 높였지만 dangerous overconfidence는 오히려 증가했습니다.(5.7% → 8.0%).

이 결과는 중요한 시사점을 제공합니다.

정확도를 높이는 retrieval이 반드시 안전한 retrieval은 아니다. 검색 기반 의료 LLM도 잔존 고위험 오답을 별도로 평가해야 한다.

Max-context 프롬프팅은 latency를 증가시켰지만 안전성 개선에는 제한적이었으며, Self-consistency 방식도 정확도와 안전성 모두에서 미미한 개선에 그쳤습니다.

또한 3개 모델 ensemble은 평균 정확도를 높였지만, 세 모델이 동일한 오답에 수렴하는 synchronized failure라는 새로운 실패 모드를 만들었습니다.

즉, 여러 모델이 같은 답을 냈다는 사실은 임상적 안전성을 보장하지 .않습니다.

Confidence는 의료 AI의 안전 필터가 될 수 있는가

많은 AI 시스템은 confidence score를 활용해 답변의 신뢰도를 판단하려 합니다. 그러나 이 논문은 confidence가 임상 LLM의 안전 필터로 충분하지 않다는 점을 보여주.고 있습니다.

Closed-book 조건에서 high-risk 오답에 대한 평균 confidence는 87.8%로, 정답(94.9%)과 큰 차이가 없없는 것으로 보였으며, Clean evidence 조건에서도 잔존 오답의 confidence는 85.4%로 거의 떨어지지 않는 것으로 확인되었습니다..

즉 clean evidence의 안전 효과는 “오답의 신중함”이 아니라 “오답의 절대 수 감소”에서 온다.

따라서 confidence 한계를 설정해 위험한 답변을 걸러내려는 단순한 deployment 전략은 충분하지 않을 수 있으며, 의료 AI와 수의학AI에서는 confidence보다 더 구조적인 안전 장치가 필요할 수 있음을 제기합니다.

의료 AI와 수의학 AI에서의 임상적 시사점

이 연구는 영상의학 객관식이라는 제한된 환경에서 수행되었지만, 임상 LLM 평가 프레임워크에 두 가지 변화를 요청하고 있습니다..

첫째, 벤치마크는 옵션 단위 안전 라벨을 포함해야 한다.

둘째, retrieval 파이프라인은 잔존 고위험 오답으로 평가되어야 한다.

평균 정확도 향상이 임상 안전 향상과 동의어가 아니라는 것은 deployment 단계에서 별도의 측정과 모니터링이 필요하다는 뜻으로 판단됩니다.

“근거 품질이 모델 규모를 압도한다”, “confidence는 안전 신호가 아니다”, “ensemble 동의는 안전을 의미하지 않는다”는 세 가지 결론은 도메인을 가리지 않고 임상 LLM 시스템 설계자가 받아들여야 할 원칙으로 보입니다.

춘옥컴퍼니 수의학 AI: ‘정답 생성’이 아니라 ‘안전한 임상 의사결정 지원’이다

수의 임상 AI 개발에 네 가지 시사점을 제공합니다.

첫째, 비슷한 모델 여러 개로 다수결을 내는 방식은 안전 장치가 되지 못합니다. 유사한 데이터와 추론 패턴을 가진 모델들은 같은 방향으로 비슷하게 틀리기 때문입니다.

둘째, 모델 크기보다 좋은 근거 데이터가 훨씬 중요할 수 있습니다. 대량의 임상 데이터도 그대로 쓰기보다는 정제 데이터로 다듬어야 진짜 경쟁력이 될 수 있습니다.

셋째, 수의 AI 벤치마크는 정답률만 보지 말고 “위험한 오답이 얼마나 나오는지”, “틀린 답을 얼마나 자신 있게 말하는지”도 함께 측정해야 합니다.

넷째, 근거가 부족하거나 임상적 위험이 큰 경우 수의사의 판단으로 연결되는 시스템이어야 합니다.임상에서 가장 위험한 건 틀린 답이 아니라 틀린 답을 확신 있게 말하는 것이기 때문입니다. 결국 정확도와 안전성은 따로 측정·관리해야 할 별개의 지표일 수 있습니다.

춘옥컴퍼니는 수의학AI를 단순한 답변 생성 기술이 아니라, 수의사의 임상 의사결정을 더 안전하고 설명 가능하게 지원하는 시스템으로 바라보고 있습니다. 앞으로의 Veterinary AI 경쟁력은 더 큰 모델을 사용하는 데서 나오지 않습니다. 임상 현상에서는 수의사와 AI가 신뢰할 수 있는 근거를 바탕으로 협업하고, 위험한 판단을 줄이며, 정확도와 안정성을 함께 관리할 수 있는 의사결정 구조를 어떻게 설계하느냐가 핵심이 될 것입니다.