AI 성능의 ‘격차’를 만드는 SFT 데이터의 비밀

최근 쏟아져 나오는 AI 모델들, 어떤 것은 묻는 말에 엉뚱한 대답만 늘어놓는 반면, 어떤 것은 마치 전문가처럼 정확하고 맥락에 딱 맞는 답변을 내놓습니다. 도대체 이 둘의 차이는 어디서 오는 걸까요?

그 비밀은 바로 ‘SFT(Supervised Fine-Tuning) 데이터’에 있습니다. 오늘은 한샘글로벌이 글로벌 빅테크 기업과 진행한 실제 프로젝트의 디테일한 요구사항을 통해, AI를 ‘진짜 전문가’로 만드는 SFT 데이터의 세계를 공개합니다.

SFT 데이터 구축: AI에게 ‘쪽집게 과외’를 시키다

기본적인 AI 모델(Pre-trained Model)이 ‘대학을 막 졸업한 똑똑한 신입사원’이라면, SFT는 이 신입사원에게 우리 회사 업무 매뉴얼을 가르쳐 ‘실무형 인재’로 만드는 과정입니다.

단순히 많은 데이터를 보여주는 것이 아니라, “이런 요청(Prompt)에는, 이런 조건(Constraints)을 지켜서 답해야 해”라는 엄격한 규칙을 학습시키는 것이죠. 한샘글로벌의 SFT 데이터 구축 서비스는 바로 이 ‘고품질 학습 규칙’을 설계하고 데이터를 생산하는 작업입니다.

프로젝트 사례: “AI야, 손가락 6개 말고 ‘진짜 사람’을 그려줘”

한샘글로벌은 최근 글로벌 테크기업으로부터 이미지 생성 AI 모델 고도화를 위한 SFT 데이터 구축을 의뢰받았습니다.

단순히 “예쁜 사진을 만들어줘”가 아니었습니다. 고객사는 AI가 흔히 범하는 오류(기형적인 신체, 어색한 조명, 문화적 편향)를 완벽히 제거하기 위해, 다음과 같은 극도로 정교한 가이드라인을 요구했습니다.

우리는 이 기준을 충족하는 수만 개의 ‘고정밀 프롬프트 데이터셋’을 구축했습니다.

✅ 기술적 완성도 (Technical Quality): “디지털 티가 나면 안 된다”

AI가 만든 이미지가 가짜처럼 보이는 이유를 기술적으로 차단했습니다.

  • 신체 왜곡 방지: “No distorted limbs, incorrect fingers(뒤틀린 팔다리나 잘못된 손가락 금지)” 조건을 명시하여 AI 모델의 고질적인 약점인 손가락/신체 묘사를 교정했습니다.
  • 사실적인 질감: “Natural textures for skin & hair(피부와 머리카락의 자연스러운 질감)”*를 강조하고, 인위적인 “Over-sharpening(과도한 선명화)”이나 “Neon glow(네온 효과)”를 엄격히 배제하여 DSLR로 촬영한 듯한 포토리얼리즘(Photorealism)을 구현했습니다.

✅ 문화적 진정성 (Cultural Authenticity): “그 나라엔 그런 건물이 없다”

글로벌 서비스를 위해서는 전 세계 사용자가 공감할 수 있어야 합니다.

  • 철저한 고증: Avoid invented or mixed cultural elements(지어내거나 섞인 문화적 요소 금지)” 원칙에 따라, 특정 지역(동아시아 시장, 유럽 카페, 서아프리카 안뜰 등)의 건축 양식과 소품을 정확히 매칭했습니다.
  • 다양성(Diversity) 확보: 특정 인종이나 나이대만 등장하지 않도록, Elders, Children(노인과 어린이)”, “People with pets(반려동물과 함께 있는 사람)” 등 다양한 삶의 모습을 데이터에 골고루 반영했습니다.

✅ 프롬프트 구조화 (Structured Prompting)

AI가 헷갈리지 않도록 모든 데이터는 5단계 공식에 맞춰 작성되었습니다.

주제(Main subject) + ②행동/감정(Action/Emotion) + ③배경(Setting) + ④문화적 디테일(Cultural details) + ⑤품질 지시어(Quality instructions)

왜 한샘글로벌인가? : 데이터의 ‘밀도’가 다르기 때문

이 프로젝트의 핵심은 단순히 텍스트를 쓰는 것이 아니라, “AI가 이해할 수 있는 언어”로 “인간의 복잡한 요구사항”을 번역해내는 것입니다.

한샘글로벌은 단순 라벨링을 넘어, 도메인 지식과 언어적 통찰력을 바탕으로 모델의 성능을 좌우하는 SFT 데이터를 설계합니다.

  • 환각(Hallucination) 억제를 위한 팩트 기반 데이터 구축
  • 글로벌 문화적 맥락(Context)이 살아있는 다국어 데이터
  • AI 모델의 기술적 한계를 보완하는 정밀 프롬프트 엔지니어링

여러분의 AI 서비스가 2% 부족하다고 느끼신다면, 이제는 모델의 크기가 아니라 데이터의 디테일을 들여다볼 때입니다. 한샘글로벌이 여러분의 AI를 ‘대체 불가능한 전문가’로 만들어 드리겠습니다.