AI 기업이 출판사에 연락해 '책이 필요하다'고 말할 때, 그 목적은 크게 두 가지입니다. 하나는 LLM 학습 데이터로 쓰는 것이고, 다른 하나는 RAG(검색 증강 생성) 방식으로 실시간 인용하는 것입니다. 겉으로는 비슷해 보이지만, 계약 구조·수익 모델·출판사의 협상력이 전혀 다릅니다. 이 둘을 구분하지 못하면 계약서에 서명하고도 손해를 볼 수 있습니다.
학습 데이터 라이선싱은 AI 기업이 모델을 훈련시키기 위해 도서 텍스트를 대량으로 가져가는 방식입니다. 수십만 권, 혹은 그 이상의 책이 한꺼번에 처리됩니다. 핵심은 '소비'에 있습니다. 텍스트는 모델 파라미터로 녹아들어 사라지고, 이후 AI가 무엇을 생성하든 어떤 책이 영향을 미쳤는지 추적하기 어렵습니다.
RAG 방식은 다릅니다. AI가 사용자 질문에 답할 때, 실시간으로 도서 데이터베이스를 검색해 관련 문단을 가져와 답변을 생성합니다. 책의 내용이 모델에 '녹아들지' 않고 필요할 때마다 '참조'됩니다. 이는 출판사 입장에서 훨씬 유리한 구조입니다. Thomson Reuters가 법률 콘텐츠 라이선싱에서 이 모델을 적극 채택한 것도 같은 이유입니다 — 콘텐츠가 사용될 때마다 수익이 발생하고, 사용량을 추적할 수 있습니다.
학습 라이선싱은 '한 번의 거래'이고, 인용 라이선싱은 '지속적인 관계'입니다. 출판사가 어느 쪽을 선택하느냐에 따라 10년 후 수익 구조가 달라집니다.
현실에서는 두 방식이 혼합된 제안이 들어오는 경우가 많습니다. AI 기업은 '학습에도 쓰고 RAG에도 쓰겠다'고 요청하면서 일괄 금액을 제시합니다. 이때 출판사가 놓치는 것이 있습니다. 학습용 라이선스는 일회성 수익이지만, RAG용 라이선스는 반복 수익입니다. 두 가지를 묶어 낮은 단가로 처리하면 장기적으로 손해입니다. 계약서에서 '학습(training)'과 '추론(inference)/검색(retrieval)'을 반드시 분리해 조항을 써야 하는 이유가 여기에 있습니다. Authors Guild를 비롯한 저자 단체들이 지속적으로 요구해온 투명한 사용 범위 명시도 결국 이 구분에서 출발합니다.
멘탯은 출판사가 이 두 가지 라이선싱 모델을 명확히 구분하고, 각각에 맞는 조건으로 AI 기업과 협상할 수 있도록 돕습니다. 학습 데이터 계약에서는 재사용 제한과 버전 조항을, RAG 계약에서는 사용량 추적과 정산 구조를 표준화한 계약 프레임워크를 제공합니다. 어떤 제안을 받았든 먼저 구조를 파악하는 것이 시작입니다. 출판사 서비스에서 자세한 내용을 확인하실 수 있습니다.