LLM 최신성: 의료 LLM은 최신 의료지식을 충분히 알고 있는가?

6월 8일
2분 분량

LLM 최신성, 왜 의료분야에서 중요한 문제인가?

의료 지식은 진화하는데, LLM은 왜 ‘언제’를 모를까?

LLM은 MedQA, PubMedQA와 같은 의학 시험형 벤치마크에서 전문가 수준에 근접한 성능을 보여주고 있습니다.

그러나 이러한 평가는 한 가지 중요한 질문을 다루지 않습니다.

바로 자료의 '최신성'입니다.

최근 발표된 Large Language Models Lack Temporal Awareness of Medical Knowledge (arXiv:2605.13045)는 바로 이 문제를 다룹니다. 연구진은 지속적으로 개정되는 진료지침을 기반으로 최신판과 과거판의 권고 차이를 반영한 721개 문항을 구축하고, GPT-5·GPT-4.1을 포함한 10여 개 모델을 평가했습니다.

Large Language Models Lack Temporal Awareness of Medical Knowledge
출처: arXiv:2605.13045

연구 결과는 의료 LLM의 성능 자체보다도, 의료 AI의 신뢰성을 결정하는 또 다른 문제를 보여줍니다. 바로 LLM 최신성(LLM Freshness), 즉 모델이 최신 의료지식을 얼마나 정확하게 이해하고 활용할 수 있는가에 대한 문제입니다.

의료 LLM은 왜 최신 의료지식을 놓칠까?

첫째, 최신 지식조차 완벽하게 알고 있지 않다

가장 성능이 높은 모델도 정확도는 70% 초반 수준에 머물렀습니다(GPT-4.1 71.11%, GPT-5 70.69%).

흥미로운 점은 최신 지침일수록 정확도가 낮아졌다는 것입니다. 다만 성능 저하는 지식 컷오프 시점을 기준으로 급격히 발생하는 것이 아니라, 시간에 따라 완만한 선형 하락 형태를 보였습니다.

연구진은 이를 최신 지식이 사전학습 데이터에 상대적으로 적게 포함되고, 오래된 지침일수록 반복적으로 학습되어 더 강하게 내재화되기 때문으로 해석합니다.

둘째, 과거 지식을 더 잘 기억하지 못한다

과거 특정 시점을 기준으로 “당시에는 무엇이 정답이었는가”를 묻는 후향적 평가에서는 정확도가 최신 지식 평가 대비 25~54% 수준까지 하락했습니다.

이는 모델이 학습 과정에서 과거 지식을 점진적으로 잊어버리는 현상과 관련될 가능성을 시사합니다.

셋째, 시간적 일관성이 무너진다

평가 시점을 연도별로 변경하며 측정한 결과, 모델은 실제 연도와 관계없이 최신 권고만 선택하는 Only-Know-Latest 패턴 또는 과거와 현재 권고를 모두 옳다고 판단하는 All-True 패턴을 보였습니다.

GPT-5조차 이상적인 시간 전이 패턴을 보인 비율은 3.64%에 불과했습니다.

특히 All-True 패턴은 이미 폐기된 권고를 명확하게 배제하지 못한다는 의미이며, 이는 임상 안전성과 연결되는 문제일 수 있습니다.

넷째, RAG도 근본적인 해결책은 아니었다

검색 기반 보강(RAG)을 적용했을 때 성능 향상 폭은 −3.15%에서 +14.14% 수준에 머물렀습니다.

더 중요한 점은 모델이 정답이 포함된 최신 지침을 정확히 검색했음에도 불구하고, 함께 검색된 상충 정보 때문에 오히려 판단이 흔들렸다는 것입니다.

이는 단순히 검색 성능의 문제가 아니라, 충돌하는 출처를 어떻게 해석하고 우선순위를 부여할 것인가의 문제에 가깝습니다. 결국 의료 AI에서 LLM 최신성은 단순히 최신 문서를 찾는 문제가 아니라, 서로 다른 시점의 근거를 구분하고 해석하는 문제임을 보여줍니다.

수의학 AI에서 LLM 최신성 문제가 중요한 이유

수의학 영역에서도 ACVIM, AAHA, WSAVA, VCOG-CTCAE와 같은 주요 수의학 가이드라인 지속적으로 개정되고 있으며, 항암 프로토콜이나 약물 용량 권고는 특히 변화 주기가 빠릅니다.

수의사가 "이 환자에게 어떤 치료를 적용해야 하는가"를 판단할 때 정답은 단순히 하나가 아니라, 어떤 시점의 어떤 지침을 기준으로 하느냐에 따라 달라질 수 있습니다.

즉, 수의학 CDSS에서 시간적 인식(Temporal Awareness)은 부가 기능이 아니라 신뢰성을 구성하는 핵심 조건에 가깝습니다.

신뢰할 수 있는 수의학 AI를 위해, LLM 최신성을 어떻게 반영할 것인가

1. 출처에 근거해 생성해야 합니다.

2. 최신성과 신뢰도를 함께 반영해야 합니다. 최신성 뿐 아니라 근거 수준도 함께 고려해야 합니다.

3. 검증 단계가 시간·충돌 게이트가 되어야 합니다. 단순 사실 확인을 넘어 출처의 최신성, 권고 간 충돌 여부, 근거 수준까지 점검할 수 있어야 합니다.

4. 버전과 연도를 사용자에게 명시해야 합니다.

LLM은 의료 시험을 통과할 수 있습니다.

그러나 이번 연구는 의료 LLM이 시간 축 위에서 지식을 이해하고 활용하는 데 여전히 한계가 있음을 보여줍니다. 임상 현장에서 중요한 것은 단순히 정답을 아는 것이 아니라, 그 정답이 어떤

시점의 어떤 근거에 기반하고 있는지 이해하는 일입니다.

결국 중요한 것은 LLM의 시간적 공백을 어떻게 보완할 것인가입니다.

수의사가 최신 근거와 임상 맥락을 함께 검토하며 더 나은 의사결정을 내릴 수 있도록 지원하는 것, 그리고 그 과정에서 신뢰할 수 있는 임상 근거를 제공하는 것. 그것이 Veterinary AI와 CDSS를 설계하며 지속적으로 풀어가고 있는 과제입니다.