범용 AI 번역의 한계, 도메인 특화 모델로 넘는 법

ChatGPT, Claude, Gemini — 최근의 대규모 언어 모델(LLM)은 놀라운 번역 성능을 보여줍니다. 그러나 이 모델들로 실제 기업 문서를 번역해본 담당자라면 한 가지 공통된 경험을 합니다. 일상적인 문장은 훌륭한데, 업종 전문 용어가 나오는 순간 품질이 흔들린다는 것입니다.

이것은 AI의 결함이 아닙니다. 범용 모델의 구조적 한계입니다. 그리고 이 한계를 넘는 방법이 있습니다.

범용 AI는 왜 전문 번역에서 흔들리는가

범용 LLM은 인터넷에 공개된 방대한 텍스트를 학습합니다. 그래서 일반적인 언어 능력은 뛰어나지만, 특정 산업의 전문 용어, 문체, 맥락까지 정밀하게 처리하기는 어렵습니다.

예를 들어, 자동차 정비 매뉴얼에서 “torque converter”를 번역할 때, 범용 AI는 문맥에 따라 “토크 변환기”, “토크 컨버터”, “회전력 변환 장치” 등 다양한 표현을 내놓을 수 있습니다. 어느 것이 해당 고객사의 기준 용어인지는 모릅니다. 의료 문서에서 같은 약물명이 문서 앞부분과 뒷부분에서 다르게 번역되기도 합니다. 법률 문서에서 조건절의 미묘한 논리가 바뀌기도 합니다.

문서 한두 페이지에서는 사소한 문제처럼 보이지만, 수만 단어 규모의 프로젝트에서 이런 불일치가 반복되면 전체 품질이 무너집니다.

해결의 방향: AI에 도메인 전문성을 입히는 것

이 문제를 해결하는 접근은 크게 두 가지입니다.

첫 번째는 번역할 때마다 용어집과 과거 번역 데이터를 AI에 참조시키는 방식입니다. 별도의 모델 훈련 없이 기존 자산을 즉시 활용할 수 있다는 장점이 있지만, 참조 데이터가 부족하면 효과가 제한됩니다.

두 번째는 도메인에 특화된 데이터로 AI 모델 자체를 튜닝하는 방식입니다. 모델이 해당 분야의 언어 패턴을 내재화하기 때문에 더 근본적인 품질 향상이 가능합니다. 다만, 이를 위해서는 양질의 도메인 데이터가 충분히 축적되어 있어야 합니다.

한샘글로벌은 이 두 가지를 모두 추진하고 있습니다. AI 워크스테이션에서 TM 연동과 용어 참조를 통해 즉시 품질을 확보하는 동시에, 장기적으로는 도메인 특화 모델 개발을 통해 AI 번역의 근본적인 정밀도를 높이는 방향으로 나아가고 있습니다.

도메인 특화 모델, 어떤 데이터로 만드는가

여기서 자연스럽게 나오는 질문이 있습니다. “도메인 데이터라면, 결국 고객 데이터를 쓰는 것 아닌가?”

그렇지 않습니다.

한샘글로벌이 추구하는 방식은 고객의 원본 데이터를 그대로 모델 훈련에 넣는 것이 아닙니다. 전자, IT, 자동차 등 주요 산업군에서 20년 이상 번역 프로젝트를 수행하며 축적된 도메인별 언어 패턴과 전문 지식을 AI 모델 개발에 활용하기 위해 체계적으로 정비하고 있으며, 이를 합성 데이터로 재구성하여 모델을 튜닝하는 방식입니다.

비유하면 이렇습니다. 숙련된 번역가가 10년간 자동차 매뉴얼을 번역하면서 체득하는 것은 특정 고객의 문서 내용이 아닙니다. “이 분야에서는 이런 표현이 자연스럽고, 이런 용어가 정확하다”는 도메인 수준의 전문성입니다. 한샘글로벌의 도메인 특화 모델이 목표로 하는 것이 바로 이 전문성의 AI 구현입니다.

고객이 실제로 우려하는 것은 자신의 데이터가 다른 곳에서 식별 가능한 형태로 쓰이는 것입니다. 합성·재구성 과정에서 원본 데이터는 도메인 수준의 언어 패턴으로 변환되며, 특정 고객의 데이터로 식별될 수 있는 형태는 남지 않습니다. 이것이 한샘글로벌이 데이터를 다루는 원칙입니다.

더 나아가: 고객 전용 모델이라는 가능성

도메인 특화 모델이 “자동차 산업 전반”의 번역 품질을 높이는 것이라면, 한 단계 더 나아간 방향이 있습니다. 개별 고객사만을 위한 전용 모델입니다.

한샘글로벌과 지속적으로 작업하는 고객사의 경우, 해당 고객사의 번역 데이터를 기반으로 전용 모델을 학습하되, 합성 데이터를 통해 학습 범위를 보강합니다. 이 데이터는 해당 고객 전용 모델에만 사용되며, 타 고객의 프로젝트나 범용 모델에는 혼입되지 않습니다.

이 구조에서 고객이 얻는 가치는 명확합니다.

프로젝트를 함께 할수록 품질이 올라갑니다. 전용 모델이 해당 고객사의 용어, 문체, 도메인 특성을 점점 더 정밀하게 반영하기 때문입니다. 처음에는 AI 번역 후 상당한 후편집이 필요하더라도, 전용 모델이 고도화될수록 AI 번역만으로도 높은 수준의 결과물이 나올 수 있습니다.

비용 구조가 시간이 갈수록 개선됩니다. 후편집의 범위가 줄어들면 프로젝트 비용도 줄어듭니다. 단순히 “AI를 써서 싸졌다”가 아니라, “함께 일한 기간에 비례해서 효율이 높아지는” 구조입니다.

한샘글로벌은 현재 이 방향을 적극적으로 추진하고 있습니다. 아직 완성된 단계가 아니라 개발과 검증을 진행 중이지만, AI 워크스테이션이라는 자체 플랫폼을 보유하고 있기 때문에 이러한 확장이 기술적으로 가능한 구조를 이미 갖추고 있습니다.

왜 아무나 할 수 없는가

도메인 특화 모델이나 고객 전용 모델은 개념적으로는 어렵지 않습니다. 그러나 실제로 만들려면 두 가지 조건이 필요합니다.

첫째, 양질의 도메인 데이터입니다. 범용 웹 데이터가 아니라 실제 전문 번역 현장에서 전문 링귀스트의 검수를 거친 데이터여야 합니다. 이런 데이터는 하루아침에 만들 수 없습니다. 한샘글로벌이 20년간 다양한 산업 분야에서 축적해온 데이터는 쉽게 복제할 수 없는 자산입니다.

둘째, 자체 기술 플랫폼입니다. 상용 번역 플랫폼에 종속된 환경에서는 자체 모델을 연동하거나 고객별로 커스터마이징하는 것이 구조적으로 어렵습니다. AI 워크스테이션이라는 자체 플랫폼이 있기 때문에, 도메인 특화 모델을 개발하고 이를 번역-검수-PE 워크플로우에 직접 연결하는 것이 가능합니다.

데이터와 플랫폼, 이 둘을 동시에 갖추고 있는 번역 회사는 많지 않습니다.

마무리: 범용에서 전문으로, 전문에서 전용으로

AI 번역의 발전 방향은 범용 모델의 성능 향상만이 아닙니다. 범용 AI의 언어 능력 위에, 산업별 전문성과 고객별 맞춤성을 겹겹이 쌓아가는 것이 진짜 경쟁력입니다.

한샘글로벌은 범용 LLM 활용 → 도메인 특화 모델 개발 → 고객 전용 모델 구축이라는 단계적 로드맵을 추진하고 있습니다. 그리고 이 모든 과정에서 고객 데이터의 보안과 소유권은 철저히 보호됩니다.

AI 번역에서 “충분히 좋은” 수준을 넘어 “우리 업종에 정확한” 수준을 기대한다면, 그 차이를 만드는 것이 무엇인지 한샘글로벌과 이야기해 보시기 바랍니다.

이 글은 [AI 번역, 제대로 도입하려면] 시리즈의 세 번째 글입니다.

시리즈 더 보기:

번역 & 현지화

AI 번역, 범용 모델의 한계를 넘는 법