블로그
가이드2026. 5. 15.·전병욱

AI 학습 데이터 vs. 인용 라이선싱 — 출판사가 꼭 알아야 할 차이

AI 기업이 출판사에 연락해 '책이 필요하다'고 말할 때, 그 목적은 크게 두 가지입니다. 하나는 LLM 학습 데이터로 쓰는 것이고, 다른 하나는 RAG(검색 증강 생성) 방식으로 실시간 인용하는 것입니다. 겉으로는 비슷해 보이지만, 계약 구조·수익 모델·출판사의 협상력이 전혀 다릅니다. 이 둘을 구분하지 못하면 계약서에 서명하고도 손해를 볼 수 있습니다.

학습 데이터 라이선싱: 한 번 주면 끝인가

학습 데이터 라이선싱은 AI 기업이 모델을 훈련시키기 위해 도서 텍스트를 대량으로 가져가는 방식입니다. 수십만 권, 혹은 그 이상의 책이 한꺼번에 처리됩니다. 핵심은 '소비'에 있습니다. 텍스트는 모델 파라미터로 녹아들어 사라지고, 이후 AI가 무엇을 생성하든 어떤 책이 영향을 미쳤는지 추적하기 어렵습니다.

  • 거래 방식: 대개 일괄 라이선스(bulk license). 권당 단가가 낮고, 총액으로 협상합니다.
  • 사용 추적: 사실상 불가능. 어떤 책이 모델에 얼마나 기여했는지 검증할 방법이 없습니다.
  • 계약 기간: 영구 라이선스 요구가 많습니다. '한 번 학습하면 모델에 남는다'는 논리입니다.
  • 위험: 계약 범위가 모호하면 동일 데이터가 다음 버전 모델 학습에도 재사용될 수 있습니다.
  • 협상 포인트: 모델 버전 제한, 재학습 시 추가 계약, 용도 제한(상업용/연구용 구분) 조항이 핵심입니다.

인용 라이선싱(RAG): 쓸 때마다 과금되는 구조

RAG 방식은 다릅니다. AI가 사용자 질문에 답할 때, 실시간으로 도서 데이터베이스를 검색해 관련 문단을 가져와 답변을 생성합니다. 책의 내용이 모델에 '녹아들지' 않고 필요할 때마다 '참조'됩니다. 이는 출판사 입장에서 훨씬 유리한 구조입니다. Thomson Reuters가 법률 콘텐츠 라이선싱에서 이 모델을 적극 채택한 것도 같은 이유입니다 — 콘텐츠가 사용될 때마다 수익이 발생하고, 사용량을 추적할 수 있습니다.

  • 거래 방식: 사용량 기반(per-query, per-citation). 호출 횟수나 참조된 문단 수로 과금합니다.
  • 사용 추적: 가능합니다. 어떤 책의 어떤 섹션이 얼마나 참조됐는지 로그로 남습니다.
  • 계약 기간: 구독형 또는 기간제 계약이 일반적입니다. 갱신 협상 기회가 생깁니다.
  • 위험: 트래픽이 많지 않으면 수익이 미미할 수 있습니다. 플랫폼 의존도가 생길 수 있습니다.
  • 협상 포인트: 최소 보장 수익(MG), 인용 출처 표시 의무, 독점/비독점 여부가 핵심입니다.

학습 라이선싱은 '한 번의 거래'이고, 인용 라이선싱은 '지속적인 관계'입니다. 출판사가 어느 쪽을 선택하느냐에 따라 10년 후 수익 구조가 달라집니다.

실제 협상에서 두 모델이 섞이는 경우

현실에서는 두 방식이 혼합된 제안이 들어오는 경우가 많습니다. AI 기업은 '학습에도 쓰고 RAG에도 쓰겠다'고 요청하면서 일괄 금액을 제시합니다. 이때 출판사가 놓치는 것이 있습니다. 학습용 라이선스는 일회성 수익이지만, RAG용 라이선스는 반복 수익입니다. 두 가지를 묶어 낮은 단가로 처리하면 장기적으로 손해입니다. 계약서에서 '학습(training)'과 '추론(inference)/검색(retrieval)'을 반드시 분리해 조항을 써야 하는 이유가 여기에 있습니다. Authors Guild를 비롯한 저자 단체들이 지속적으로 요구해온 투명한 사용 범위 명시도 결국 이 구분에서 출발합니다.

멘탯은 출판사가 이 두 가지 라이선싱 모델을 명확히 구분하고, 각각에 맞는 조건으로 AI 기업과 협상할 수 있도록 돕습니다. 학습 데이터 계약에서는 재사용 제한과 버전 조항을, RAG 계약에서는 사용량 추적과 정산 구조를 표준화한 계약 프레임워크를 제공합니다. 어떤 제안을 받았든 먼저 구조를 파악하는 것이 시작입니다. 출판사 서비스에서 자세한 내용을 확인하실 수 있습니다.

멘탯과 함께 시작하세요

AI 시대, 도서 콘텐츠의 새로운 가능성을 열어보세요

제휴가 궁금해요