AI가 텍스트를 이해하게 만드는 방법: 한샘글로벌의 텍스트 라벨링 서비스

생성형 AI가 주목받는 시대지만, 현장에서 성능과 안정성을 가르는 요소는 결국 데이터 품질입니다. 특히 텍스트는 의미와 맥락이 포함되어 있어, 정답 기준이 조금만 흔들려도 자동 분류나 문서 자동화 결과가 쉽게 불안정해집니다. 이때 필요한 기반 작업이 텍스트 라벨링(Text Labeling)입니다.

텍스트 라벨링은 텍스트를 사람이 읽고, 기준에 따라 분류 태그를 붙이거나 필요한 값을 추출해 구조화하는 AI 데이터 라벨링 서비스입니다. 다국어가 포함되면 언어별 표현 차이 속에서도 동일 기준을 유지해야 하므로, 특히 다국어 운영 경험을 가진 LSP가 수행하는 경우가 많습니다. 이번 프로젝트에서도 한샘글로벌은 글로벌 테크 기업의 아시아 언어권 텍스트 라벨링을 수행했으며, 본문에서 두 가지 사례를 소개합니다.

텍스트 라벨링이 중요한 이유: AI 운영의 기준을 “고정”하는 작업

AI는 사람이 정한 정답 정의를 그대로 학습하고, 운영 과정에서도 그 기준으로 판단합니다. 따라서 라벨 기준이 불명확하거나 사람마다 다르면 결과가 흔들릴 수밖에 없습니다.

  • 라벨 기준이 일관되지 않으면, 동일한 입력에도 결과가 들쭉날쭉해짐
  • 언어권마다 표현이 다른데 기준이 통일되지 않으면 국가/언어별 편차가 발생
  • 오타, 축약어, 혼합 언어, 문서 레이아웃 차이처럼 노이즈가 많을수록 정답 정의가 더 중요

즉 텍스트 라벨링은 단순 인력 작업이 아니라, 기준을 설계하고 표준화하며 품질을 관리하는 “데이터 품질 운영”입니다.

대표적인 텍스트 라벨링 서비스 유형

분류(Classification)
텍스트의 의미를 정해진 카테고리로 구분합니다.
예: 문의 유형(결제/배송/환불), 감성(긍정/중립/부정), 이슈 유형(오류/기능 요청/불만)

정보추출(Extraction / Field Annotation)
문서나 텍스트에서 특정 값을 찾아 정해진 필드에 입력해 구조화합니다.
예: 급여명세서에서 회사명/기간/금액 등 핵심 항목 추출

정책/리스크 라벨링(옵션)
유해 표현, 스팸, 개인정보(PII) 포함 여부 등을 탐지·표시합니다.
예: 전화번호/이메일/주소 등 개인정보 구간 표시, 욕설/혐오 표현 여부 분류

이 외에도 의도(Intent), 문장 구간(Span) 라벨링, 유사도/중복 라벨링 같은 확장 유형이 있으나, 현장에서는 위 세 가지가 가장 기본 축으로 많이 활용됩니다.

사례 A: 대화 데이터 감성 라벨링(분류형)

첫 번째 프로젝트는 서비스 대화 데이터에서 각 발화(turn)가 드러내는 감성 톤을 라벨링하는 작업이었습니다. 핵심은 “대화 전체 분위기”가 아니라, 각 턴을 독립적으로 평가해 감성을 부여한다는 점입니다.

  • 매우 긍정 / 긍정 / 중립 / 부정 / 매우 부정의 5단계
  • “Thank you”처럼 단순 예의 표현은 중립 처리
  • 명확한 불만이 없는 단순 문제 보고는 중립 가능
  • 의미 없는 문자열, 혼합 언어 등 노이즈는 예외 규칙으로 별도 처리

이런 라벨은 운영에서 부정 대화 비율, 특정 이슈 급증 신호 등을 모니터링하는 지표가 될 수 있고, 고객 응대 자동화 환경에서는 상황에 맞는 어조(안내/추가 질문/사과)를 선택하는 기준으로도 활용될 수 있습니다.

사례 B: 문서 정보 추출 라벨링(Extraction / Field Annotation)

두 번째 프로젝트는 급여명세서, 은행거래내역서 등 문서에서 필요한 값을 찾아 표준 필드에 입력하는 형태의 라벨링이었습니다. 이 유형의 핵심은 “해석”이 아니라 “정확한 복원”입니다.

  • 문서에 적힌 값을 그대로 옮기며 임의로 추정하지 않음
  • 값이 없으면 공란이 아니라 NA로 표기
  • 대소문자, 숫자 표기(0.00 포함), 통화 기호까지 원문 그대로 유지
  • 문서마다 다른 표기를 표준 필드로 매핑하기 위해 동의어/표기 변형을 함께 관리

예를 들어 같은 항목이 문서에서는 “Net Pay”, “Take-home Pay”, “Amount Paid”처럼 다르게 표현될 수 있습니다. 라벨링은 이런 변형을 표준 필드로 정리해 “어느 문서든 같은 방식으로 값이 채워지도록” 정답 데이터를 만드는 작업입니다. 이 데이터는 KYC, 심사, 정산, 검증, 컴플라이언스 등 문서 기반 프로세스 자동화의 핵심 입력으로 연결됩니다.

두 프로젝트의 공통점: 텍스트 라벨링은 품질 운영이다

형태는 다르지만 두 사례의 본질은 같습니다. 사람이 기준에 따라 정답을 고정하고, 그 정답이 자동화의 기준이 됩니다. 그래서 라벨링 품질은 다음 세 가지로 결정됩니다.

  1. 기준 설계(Definition): 무엇을 정답으로 볼지, 예외는 무엇인지 고정
  2. 표준화(Standardization): 언어/문서 유형/표현 변형이 달라도 같은 기준을 유지
  3. 품질 관리(QA): 라벨러 간 일관성 확보, 예외 규칙 관리, 재현 가능한 산출물 제공

텍스트 라벨링 프로젝트가 어려운 이유는 품질이 라벨러 개인 역량에 좌우되기 쉽기 때문입니다. 한샘글로벌은 프로젝트 초기부터 내부 AM/PM이 기준 정리–교육–작업 배정–이슈 처리–납품까지 전 과정을 주도하며, 난이도에 따라 인력을 등급화(L1–L3)해 적합한 인력을 선별 투입합니다. 또한 QA–Review–LQA의 3단계 검수와 ISO 27001 기반 보안 체계를 통해, 품질과 보안 요구가 높은 프로젝트에도 대응합니다. 한마디로 한샘글로벌의 차별점은 ‘개별 작업자의 숙련도’가 아니라 ‘품질이 재현되도록 설계된 운영 시스템’입니다.

결론: 텍스트 라벨링은 AI를 현장에 붙이는 마지막 기반 작업

감성 라벨링은 고객 경험 중심의 분석·모니터링을 가능하게 하고, 정보추출 라벨링은 문서 기반 업무 자동화를 현실화합니다. 둘 다 결국 정답 데이터를 만든다는 동일한 목적을 갖습니다.

텍스트 기반 자동 분류, VOC 분석, 문서 처리 자동화를 고려하고 있다면, 먼저 텍스트 라벨링 기준을 어떻게 설계하고 품질을 어떻게 운영할지부터 점검해 보시기 바랍니다. 다국어 환경에서 기준 일관성과 보안 요건까지 함께 충족해야 하는 프로젝트라면, 라벨링 자체보다 ‘운영 시스템’이 성패를 좌우합니다.