보호자가 다르게 말하면, 수의사도 다르게 묻는다 _ 수의학 LLM 신뢰성과 AI

5월 10일
3분 분량

같은 환자, 같은 증상이라도 보호자가 어떻게 표현하느냐에 따라 AI의 답변은 달라질 수 있습니다.

최근 UC Berkeley·UCSF 연구팀이 발표한 「Green Shielding: A User-Centric Approach Towards Trustworthy AI — LLM-Assisted Medical Diagnosis as a Case Study」는 의료 LLM 신뢰성을 단순 “정답률”이 아니라, 실제 사용자 표현 방식 관점에서 바라본 연구입니다.

그리고 이 문제는 보호자 진술에서 시작되는 수의학 AI에서 더 중요할 수 있습니다. 의료 LLM 신뢰성을 단순 “정답률”이 아니라, 실제 사용자 표현 방식 관점에서 바라본 연구입니다.

그리고 이 문제는 보호자 진술에서 시작되는 수의학 AI에서 더 중요할 수 있습니다.

같은 환자, 같은 증상인데 표현 방식만 달라지면LLM은 다른 판단을 내릴 수 있을까?

연구 결과는 명확했습니다.답은 “그렇다”였습니다.

연구진은 환자가 직접 작성한 질문 2,697건을 GPT-5-mini, Gemini-3-flash, Claude Haiku 4.5 등 여러 모델에 입력했습니다.

이후 동일한 질문을 한 번 더 “정제(neutralize)”했습니다.

감정 표현과 자기 진단, 불필요한 설명을 줄이고, 보다 정제된 임상 케이스 형태로 다시 입력한 것입니다.

그 결과, 정제된 입력에서는 답변이 더 간결하고 임상적인 형태로 변했습니다. 반면 동시에 cannot-miss diagnosis — 흔하지 않더라도 놓치면 환자에게 치명적일 수 있는 응급·중증 질환 — 의 누락 가능성이 증가하는 경향도 함께 관찰되었습니다.

반대로 보호자 표현을 상대적으로 그대로 유지한 입력에서는 모델이:

“정보가 부족합니다.”

라고 반응하는 빈도가 더 높았습니다.

흥미로운 점은 입력 정보량 자체는 크게 달라지지 않았다는 것입니다.

단지 표현 방식과 문장 구조가 달라졌을 뿐인데도 모델의 응답 방식과 확신 수준은 달라졌습니다.

연구진의 ablation 결과 역시 인상적입니다.

환자가 “무엇을 말했는가”보다, “어떻게 말했는가” — 즉 표현의 톤과 형식 — 가 모델의 행동 변화에 더 큰 영향을 주는 것으로 나타났습니다.

이는 동일한 정보라도 입력 구조와 표현 방식에 따라 LLM의 진단 우선순위가 달라질 수 있음을 의미합니다.

수의학 LLM 신뢰성은 왜 입력 방식에 따라 달라질까

기존 AI 안전성 연구는 주로 jailbreak, prompt injection 같은 “공격 상황” 중심으로 진행되어 왔습니다.논문에서는 이를 'AI Safety I'이라고 설명합니다.

반면 실제 의료 현장에서 더 자주 발생하는 문제는 다른 형태에 가깝습니다.

환자의 설명 방식 때문에 응급 질환 가능성이 누락되는 경우

특정 표현이 진단 우선순위에 영향을 주는 경우

충분한 정보 없이 모델이 과도한 확신을 보이는 경우

논문은 이러한 영역을 'AI Safety II'라는 개념으로 설명합니다.

춘옥컴퍼니는 이 관점이 특히 수의학 AI에서 중요할 수 있다고 보고 있습니다.

사람 의료에서는 환자가 직접 증상을 설명할 수 있습니다.

하지만 수의학에서는 대부분의 정보가 보호자의 관찰과 표현에서 시작됩니다.

예를 들어:

“어제부터 잘 안 먹어요.”
“배가 빵빵해진 것 같아요.”
“평소랑 걷는 게 달라요.”

같은 표현은 이후 수의사의 해석 과정을 거쳐 임상 언어로 변환됩니다.

같은 환자라도 모두 실제 진료 현장에서 자연스럽게 발생합니다.

보호자 표현을 비교적 그대로 유지하는 방식
임상 용어 중심으로 정리하는 방식

그러나 이번 연구 결과에 따르면 이러한 입력 구조의 차이가 AI의 판단 결과에도 영향을 줄 가능성이 존재합니다.

수의학 AI는 왜 더 복잡한 번역 구조를 가지는가

이번 논문은 단순히 “보호자가 어떻게 말하는가” 의 문제에 머무르지 않습니다.

오히려 “수의사가 어떻게 임상 언어로 변환하는가” 까지 포함하는 문제에 가깝습니다.

그리고 이 과정에는 단일한 정답이 존재하지 않습니다.

입력을 정제하면 답변은 더 명확해질 수 있습니다.

하지만 동시에 cannot-miss diagnosis의 누락 위험이 증가할 가능성도 존재합니다.

반대로 보호자 표현을 더 많이 유지하면 모델은 더 자주 불확실성을 표현하게 됩니다.

이러한 trade-off는 실제 임상 환경에서 수의사마다 다르게 나타날 수 있습니다.

| 춘옥컴퍼니는 이러한 특성 때문에 Veterinary AI를 단순 QA 시스템이 아니라:

보호자 표현
수의사 해석
임상 표현
AI 추론

이 연결되는 구조적 문제로 바라보고 있습니다.

즉, 수의학 AI는 단순 질의응답이 아니라 “임상 정보가 어떻게 번역되고 구조화되는가”까지 함께 이해해야 하는 영역에 가깝습니다.

춘옥컴퍼니는 왜 수의학 LLM 신뢰성을 중요하게 보는가

춘옥컴퍼니는 수의학 AI를 단순 “정답 생성 시스템”으로 정의하지 않습니다.

실제 임상에서는:

“가능성이 높은 질환”
“빈도는 낮지만 놓치면 위험한 질환”

을 동시에 고려해야 하기 때문입니다.

예를 들어 강아지의 허약감은 단순 위장관 증상일 수도 있지만, 동시에 GDV(위확장·염전) 같은 응급질환 가능성도 포함할 수 있습니다.

만약 모델이 일반적인 질환은 잘 맞추더라도 cannot-miss diagnosis를 반복적으로 누락한다면, 임상적으로는 위험한 시스템이 될 수 있습니다.

이 때문에 춘옥컴퍼니는 단순 응답 생성 능력보다:

왜 그런 결론에 도달했는가
어떤 위험 가능성을 우선 고려했는가
어떤 정보가 부족한가

를 함께 보여줄 수 있는 구조가 중요하다고 보고 있습니다.

수의학 LLM 신뢰성은 단순히 “정확한가”의 문제가 아니라, 어떤 입력 구조와 임상 맥락 위에서 판단하고 있는가의 문제이기도 하기 때문입니다.

---------------------------------------------------------------------------------------------------------------

논문 저자들은 또 하나의 중요한 한계를 언급합니다.

현재 많은 의료 AI 평가는 단일 턴(single-turn) 기반으로 이루어집니다.

하지만 실제 임상은 다중 턴(multi-turn) 환경에 가깝습니다.

실제 진료에서는:

“현재 정보만으로는 부족하니 추가 질문이 필요합니다.”

라고 말할 수 있는 능력이 중요합니다.

춘옥컴퍼니 역시 Veterinary AI를 단순 single-turn QA 시스템이 아니라, 실제 임상 흐름 속에서 추가 질문과 임상 추론을 함께 수행할 수 있는 방향으로 바라보고 있습니다.

결론적으로, 같은 케이스라도:

보호자가 다르게 표현하고
수의사가 다르게 정리하면
LLM은 다른 판단을 내릴 수 있습니다.

그리고 그 차이는 실제 임상 환경에서 무시하기 어려운 수준일 수 있습니다.

AI는 단순히 “무엇을 알고 있는가”만의 문제가 아닙니다. 어떤 입력 구조와 맥락 속에서 판단하고 있는가 역시 중요한 문제입니다.

그리고 수의학 AI는 이러한 복잡한 번역 구조 위에서 설계되어야 하는 영역에 더 가까울 수 있습니다.

보호자가 다르게 말하면, 수의사도 다르게 묻는다 _ 수의학 LLM 신뢰성과 AI

수의학 LLM 신뢰성은 왜 입력 방식에 따라 달라질까

수의학 AI는 왜 더 복잡한 번역 구조를 가지는가

춘옥컴퍼니는 왜 수의학 LLM 신뢰성을 중요하게 보는가

최근 게시물

댓글