AI 할루시네이션과 가짜 인용 14만 건, 왜 임상 수의학이 더 위험한가?

6월 1일
3분 분량

파란 물결 무늬 배경 위에 분홍·초록빛 추상 소용돌이가 중앙에 번지는 사이키델릭한 그래픽 이미지.

최근 몇 년 사이 AI 할루시네이션(AI Hallucination)은 생성형 AI의 대표적인 한계로 이야기되고 있습니다. 하지만 대부분의 논의는 챗봇이 틀린 답을 한다는 수준에 머무르는 경우가 많습니다.

그렇다면 실제 기록은 어떨까요?

최근 공개된 한 연구는 AI 할루시네이션이 이미 학술 생태계 안으로 들어와 있음을 보여줍니다. 연구진은 2025년 한 해 동안 주요 학술 코퍼스에서 약 14만 건의 가짜 인용이 발생했을 것으로 추정했습니다.

더 흥미로운 점은 이 연구가 과학 분야를 대상으로 했다는 것입니다.

과학은 환각을 탐지하기에 가장 유리한 환경입니다. 대규모 문헌 데이터베이스가 있고, 인용 규범이 존재하며, 편집자와 동료 심사자도 있습니다.

그런데도 환각은 기록에 남았습니다.

그렇다면 임상 기록은 어떨까요?

이번 글에서는 대규모 AI 할루시네이션 연구가 무엇을 보여주었는지 살펴보고, 왜 이 문제가 임상 수의 AI에서는 더욱 중요해지는지 이야기해보고자 합니다.

AI 할루시네이션 14만 건이라는 숫자

최근 코넬·UC 버클리·UCLA 연구진은 ⌈LLM hallucinations in the wild: Large-scale evidence from non-existent citations⌋라는 연구를 발표했습니다.

연구진은 arXiv, bioRxiv, SSRN, PubMed Central 네 개 코퍼스를 대상으로 약 250만 편의 논문과 1억 1천만 건의 참고문헌을 분석했습니다.

그리고 2025년 한 해 동안 최소 146,932건의 "존재하지 않는 인용(non-existent citation)"이 발생했을 것으로 추정했습니다.

쉽게 말해, 실제로 존재하지 않는 논문이 참고문헌에 포함된 것입니다.

중요한 점은 이것이 단순한 오타나 편집 실수가 아니라는 점입니다. 연구진은 이러한 증가가 LLM 사용 확산과 밀접하게 연관되어 있다고 분석했습니다.

왜 이 결과가 주목받는지 이해하려면 먼저 연구가 환각을 어떻게 측정했는지 살펴볼 필요가 있습니다.

AI 할루시네이션은 어떻게 측정했나

AI 할루시네이션을 평가하는 일은 생각보다 어렵습니다.

모델이 생성한 문장이 사실인지 판단하려면 외부 근거와 하나씩 대조해야 하기 때문입니다.

그래서 기존 연구들은 사람이 직접 평가하거나, 또 다른 LLM을 평가자로 사용하는 방식을 주로 사용해 왔습니다. 이번 연구는 조금 다른 접근을 선택했습니다.

"인용된 논문이 실제로 존재하는가?"

이 질문은 비교적 명확한 정답을 가집니다.

연구진은 Semantic Scholar와 OpenAlex 색인을 이용해 참고문헌을 확인했고, 매칭되지 않는 경우에는 Google Scholar까지 교차 검증했습니다.

핵심 설계는 개별 인용을 하나하나 "환각이다/아니다" 판정하지 않는다는 것입니다.

대신 LLM이 널리 사용되기 이전의 미매칭 비율을 기준선으로 설정하고, 이후 증가한 부분을 AI 할루시네이션의 집단적 신호로 해석했습니다.

따라서 논문이 제시한 수치는 보수적인 하한선에 가깝습니다.

실제 규모는 더 클 수도 있습니다.

데이터가 말하는 다섯 가지 사실

급증은 2024년 중반부터 시작되었다.
몇 개의 문제가 아니다.
LLM을 많이 쓰는 분야일수록 환각률이 높았다.
환각은 신진 연구자와 소규모 팀에서 더 자주 발견됐다.
환각은 기존 편향을 강화할 수 있다.

왜 임상 수의학 더 위험한가?

이 연구가 중요한 이유는 단순히 논문 몇 편의 문제가 아니기 때문입니다. 연구진은 현재의 안전장치도 함께 분석했습니다.

arXiv 모더레이션은 환각이 포함된 원고를 더 자주 걸러냈지만, 그럼에도 가짜 인용의 상당수는 플랫폼에 게시됐습니다.

bioRxiv 프리프린트가 정식 논문으로 출판되는 과정에서도 대부분의 환각이 그대로 유지됐습니다.

동료 심사와 편집 과정조차 완벽한 방어선이 되지 못한 것입니다. 여기서 연구진은 더 중요한 질문을 던집니다.

과학은 환각을 탐지하기에 가장 유리한 환경인데도 이런 결과가 나왔다면, 검증 인프라가 충분하지 않은 영역은 어떨까?

연구진은 정부 문서, 법률 문서, 그리고 임상 기록을 대표적인 사례로 언급합니다.

논문에는 참고문헌이라는 검증 가능한 객체가 존재합니다.

반면 임상 기록은 그렇지 않습니다. 진료 기록 속 판단과 설명은 훨씬 비정형적이고, 사후 검증도 어렵습니다. 그래서 같은 유형의 오류가 발생했을 때 발견하기도, 교정하기도 더 어렵습니다. 임상 수의 AI를 만드는 입장에서 이 지점은 매우 중요하게 다가옵니다.

그래서 춘옥컴퍼니는 검증을 기본으로 생각합니다.

수의 임상 환경에서 환각은 단순한 정보 오류에 그치지 않습니다.

잘못된 약물 정보나 부정확한 임상 지식은 실제 환자에게 영향을 줄 수 있습니다.

그래서 의료 LLM은 답변 생성 능력만으로는 충분하지 않습니다.

중요한 것은 생성된 답변을 얼마나 신뢰할 수 있는가입니다.

춘옥은 이 문제를 임상 의사결정 지원 시스템(CDSS)의 관점에서 바라보고 있습니다.

VetJarvis가 임상 추론을 수행하고, 이후 검증 과정을 통해 결과를 다시 확인하는 구조를 만드는 이유도 여기에 있습니다.

우리가 궁극적으로 해결하려는 문제는 단순히 답을 생성하는 것이 아니라, 임상 현장에서 활용 가능한 수준의 신뢰성을 확보하는 것입니다.

측정 없이는 개선도 없다

이번 연구가 가능했던 이유는 측정 가능한 대상이 있었기 때문입니다.

존재하는 논문인지 아닌지를 확인할 수 있었고, 이를 검증할 수 있는 인프라도 존재했습니다.

수의학 분야에는 아직 이러한 표준화된 평가 체계가 충분하지 않습니다.

수의 임상 AI가 어떤 오류를 얼마나 자주 발생시키는지 객관적으로 측정할 수 있어야 개선도 가능합니다.

그래서 우리는 모델 개발만큼이나 평가 기준과 검증 체계를 만드는 일을 중요하게 생각합니다.

같은 맥락에서 VetJarvis-4B-Instruct를 공개한 이유도 단순히 모델을 배포하기 위해서가 아닙니다.

측정 기준과 베이스라인이 공유될 때 비로소 생태계 전체가 함께 발전할 수 있다고 생각하기 때문입니다.

춘옥컴퍼니 수의학 오픈소스모델 JARVIS-4B 더 알아보기

춘옥은 수의사와 반려동물 생태계 구성원들이 수의학 지식에 더 쉽게 접근하고 활용할 수 있기를 바랍니다.

나아가 더 나은 의사결정이 더 많은 생명을 살리는 데 기여할 수 있기를 기대합니다.

하지만 그 과정에서 중요한 것은 정보의 양이 아니라 신뢰성입니다.

만약 모델이 만들어낸 환각이 다시 학습 데이터가 되고, 그것이 또 다른 할루시네이션의 근거가 된다면 지식 생태계 전체가 오염될 수 있습니다. 정보는 더 많이 생산될지 모르지만, 실제로 신뢰하며 활용할 수 있는 지식은 오히려 줄어들 수 있습니다.

AI 할루시네이션이 과학이라는 가장 유리한 환경에서도 발견된 시대에, 의료 AI에서는 무엇보다 검증을 기본으로 생각해야할 수 있습니다. 춘옥은 수의학 AI가 더 많은 지식을 생성하는 것을 넘어, 더 신뢰할 수 있는 지식을 전달할 수 있도록 노력하겠습니다.