기계번역 엔진구축을 위한 대량 번역 프로젝트를 수행하다!

blog main banner

아주 특별한 프로젝트

우리 한샘EUG에서는 마케팅, IT, 의학 및 생명과학 등과 같이 다양한 분야의 유럽어, 아랍어, 아시아 언어를 아우르는 70개가 넘는 언어들에 대한 번역 서비스를 국내 고객과 해외 고객들에게 제공하고 있지만 최근 1년동안 좀 특별한 프로젝트를 진행하게 되었어요. 바로 NMT (인공신경망 기반 기계번역) 엔진의 기반이 되는 트레이닝 데이터를 빌드하기 위한 영어>미얀마어, 한국어>스페인어, 프랑스어 등 총 6,000,000 단어의 대량 번역작업이었는데요, 흔하지 않은 언어쌍의 대규모 프로젝트를 성공적으로 진행한 이야기를 소개하려고 합니다.

Scripted by
Mr. Mandoo
SP Div

흔하지 않은 언어쌍의 기계번역 엔진구축 프로젝트

시작은 국내 굴지의 글로벌 포털 업체로부터 2,000,000 단어 볼륨의 작업 기간은 3개월밖에 되지 않는 대량 영어>미얀마어 번역 프로젝트를 수주하게 되면서였는데요, 이후 한국어>스페인어, 한국어>프랑스어도 각 2,000,000 단어 볼륨으로 프로젝트가 수주되어 진행하게 되었습니다. 대부분의 번역 프로젝트가 영어에서 출발하여 다국어로 번역이 되던지, 한국어에서 영어로 번역하여 다국어로 번역되는 경우였기 때문에, 한국어에서 출발하는 유럽언어는 사실 우리에게는 흔하지 않은 언어쌍이었고, 미얀마어 역시 정부 문서 등을 번역한 적은 있었지만 이렇게 짧은 기간 동안 대량의 번역 프로젝트는 사실 처음이었습니다 또한 번역 결과 데이터는 Machine Translation 데이터베이스의 기초 데이터로 사용될 예정이었기 때문에 유려한 문장, 읽기 쉬운 표현 등의 요소보다는 정확한 번역이 최우선시되는 프로젝트였답니다.

미얀마어의 특징

미얀마어는 원래 명칭이 버마어였지만 군부가 장악하면서 미얀마어라는 명칭을 새로 사용하고 다른 국가에서도 미얀마어를 공식적인 명칭으로 인정하고 있어요. 이 언어는 중국어의 친척뻘인 언어로, 국내에는 미얀마어 관련 과가 있는 대학이 한군데밖에 없는 희귀언어에요. 2010년 들어 이 미얀마어 번역에 대한 수요가 점차 늘어나고 있고 최근 선거를 통해 미얀마가 민주화되면서 점차 개방적으로 변해가고 있어 언어 서비스의 블루오션으로 생각할 수 있어요.

도전 1단계: 번역가 및 내부 인력 네트워크 구축

이 프로젝트의 성공적인 수행을 위해 가장 먼저 해결해야 했던 것이 우수한 리소스 네트워크를 구축하는 일이었죠.

미얀마어의 경우, 일반 번역가 자원도 풍부하지 않지만 미얀마어 번역 자체도 아직까지는 활발히 진행되는 언어가 아니라서 번역 경험이 많고 뛰어난 능력을 가진 번역가를 많이 섭외하는 것이 진짜 어려웠어요. 그러나 다행스럽게도 원활한 동남아 언어 서비스 지원을 위해 이미 베트남 현지 지사를 셋업한 상태였기 때문에 본사의 리소스 매니지먼트 팀의 관리 하에 베트남 지사의 주도적인 리소스 섭외 활동을 벌인 결과 20명 이상의 좋은 번역가와 5개의 기존 및 신규 번역 팀으로 구성된 네트워크를 구축할 수 있었습니다. 또한 이 프로젝트를 위해 대량 다국어 번역 관리 경험이 풍부한 전담 PM을 투입하고 고객과의 커뮤니케이션 및 효율적인 일정관리를 위해 전담 수퍼바이저를 배정함으로써 번역 진행 중간에 발생했던 예상치 못한 문제들도 쉽게 해결하고 고객이 원하는 납기 일정을 문제 없이 준수할 수 있었어요.

스페인어와 프랑스어의 경우, 영어에서 출발하는 리소스는 풍부하지만 한국어에서 출발하는 리소스는 생소했기 때문에 리소스 섭외가 더 어려웠습니다. 또한 국내에 거주하고 있는 외국인 리소스의 비자 문제 등도 예상치 못한 복병이었는데요, 리소스 매니지먼트의 활약으로 3주만에 리소스 모집, 선별, 샘플테스트 진행, 계약 등의 과정을 거쳐 60여명의 번역가와 검수자 그룹을 셋업하여 프로젝트 착수 준비를 신속하게 마칠 수 있었습니다.

도전 2단계: 기술적 이슈 해결

이 미얀마어 프로젝트를 진행하면서 다른 언어 번역에서는 거의 발생하지 않았던 폰트나 글자 깨짐 이슈나 파일이 깨지는 문제 등이 있었어요. 이 프로젝트에 참여한 번역가들이 워낙 많다 보니 Unicode와 zawgyi 폰트가 여러 파일에 혼용되는 일이 생겼는데 Unicode가 사용된 번역 문장들에서 미얀마어 문자들이 깨졌죠. 하지만 로컬리제이션 엔지니어링에 특화된 데이터 솔루션 팀이 전체 파일에서 Unicode와 zawgyi 폰트 혼용 여부를 체크하고 잘못된 글꼴을 대체할 수 있는 툴과 자체 개발한 QA 툴을 사용함으로써 이 문제도 무사히 해결할 수 있었네요.

도전 3단계: 프로젝트 매니지먼트와 소통

많은 인력이 투입되고 단기간 내에 완료되어야 하는 조건의 프로젝트를 진행하며, 번역가와 리뷰어 간 실시간 피드백 교환 및 쿼리보드 운영 등 원활한 소통을 돕고 중앙집중적인 프로젝트 관리가 용이하도록 별도의 작업자 커뮤니티를 구성하였습니다. 또한, MT엔진 학습의 효율성을 극대화 하기 위해 인하우스 Linguist가 소스 문장의 품질을 개선하는 등, Pre-editing 작업을 진행하여 최상의 결과를 낼 수 있도록 노력했습니다.

함께 수고해준 프랑스어, 스페인어 리뷰어들

도전 4단계: 고객 피드백 해결

미얀마어 프로젝트의 경우 번역할 내용이 워낙 많다 보니 1차 납품 후 일부 파일에 대한 품질 이슈 피드백을 고객으로부터 받게 되었는데요. 이 품질 이슈를 해결하기 위해 프로젝트에 참여한 미얀마어 번역가들 중 우수한 3-4명의 번역가를 한샘만의 LQA 프로세스를 통해 검수자로 선별한 후 고객이 지적한 이슈뿐만 아니라 다른 부분에 대한 상세 검수/수정/QA를 통해 번역 품질이 개선된 파일들을 고객에게 무사히 납품할 수 있었습니다.

프로젝트 수행 후기 및 결론

지금까지 소개해 드린 세가지 대량 번역 프로젝트는 우리 한샘EUG 리소스 매니지먼트팀과 베트남 지사의 리소스 운영 능력을 입증하는 계기가 되었고 프로젝트 경험이 전무한 희귀언어나 특수 분야의 프로젝트인 경우에도 효율적인 리소스 운영과 일정관리, 특화된 기술 지원을 통해 충분히 해낼 수 있다는 자신감을 갖게 해주었답니다!!

LIST

  • Hansem Story

    중국 우한팀의 오피스 이전

    중국 우한팀의 오피스 이전

    5. 8, 2019

  • Hansem Story

    2019 World IT show 컨퍼런스 참관기 1

    2019 World IT show 컨퍼런스 참관기 1

    5. 3, 2019

  • Posts

    Developing Quality Technical Information_2. 사용자 중심으로 잘 만들어졌는가

    Developing Quality Technical Information_2. 사용자 중심으로 잘 만들어졌는가

    4. 30, 2019