AI 도서 라이선싱은 어떻게 작동하나? — 학습 데이터 vs 참조/인용(RAG)

AI 기업이 출판사의 도서 콘텐츠를 합법적으로 활용하는 방법은 크게 두 가지입니다. 하나는 학습 데이터로 활용하는 것이고, 다른 하나는 AI 답변 시 도서를 참조/인용하는 것입니다. 두 모델은 기술 구조, 과금 방식, 출판사 수익 패턴이 모두 다릅니다.

모델 1: 학습 데이터 라이선싱

학습 데이터 라이선싱은 도서의 전체 텍스트를 JSONL 등의 구조화된 포맷으로 변환하여, AI 모델의 사전학습(pre-training) 또는 미세조정(fine-tuning)에 사용하는 방식입니다.

도서 전체 텍스트를 정제·구조화하여 일괄 제공
계약 시점에 라이선싱 비용 일시 지급
글로벌 사례: HarperCollins-Microsoft 권당 $5,000, Wiley 연 $40M+
출판사 관점에서 즉시 수익 발생, 예측 가능한 일회성 모델

모델 2: 참조/인용 라이선싱 (RAG)

RAG(Retrieval-Augmented Generation)은 AI가 답변을 생성할 때 외부 데이터베이스에서 관련 문서를 검색하여 인용하는 기술입니다. 참조/인용 라이선싱은 이 과정에서 도서가 인용될 때마다 과금하는 사용량 기반 모델입니다.

AI가 사용자 질문에 답변할 때 관련 도서 구절을 검색·인용
인용 횟수에 따라 사용량 과금 (월 정산)
서점 구매 링크 자동 연결 → 도서 판매 부수 증가 효과
출판사 관점에서 지속적·반복적 수익, 도서가 인용될수록 수익 성장

두 모델의 비교

학습 데이터 라이선싱은 즉시 수익이 발생하는 일회성 모델이고, 참조/인용 라이선싱은 장기적으로 반복 수익을 만드는 구독형 모델입니다. 대부분의 출판사는 두 모델을 함께 활용하는 것이 최적입니다.

학습 데이터는 도서의 '지식'을 판매하는 것이고, 참조/인용은 도서의 '권위'를 판매하는 것입니다. 둘 다 출판사의 핵심 자산입니다.

Fortune 500의 67%가 RAG를 도입한 이유

Deloitte의 2025년 조사에 따르면 Fortune 500 기업의 67%가 RAG를 도입했거나 도입을 계획하고 있습니다. 단순한 AI 답변이 아니라, 검증된 출처를 기반으로 한 신뢰할 수 있는 답변을 원하기 때문입니다.

AI 기업 입장에서 도서는 가장 신뢰할 수 있는 RAG 소스입니다. 전문 편집 과정을 거쳤고, 저자의 전문성이 검증되어 있으며, 출처 추적이 가능합니다. 멘탯은 이 도서 데이터를 RAG API로 제공하여, AI 기업이 합법적으로 도서를 인용할 수 있는 인프라를 구축하고 있습니다.

AI 도서 라이선싱은 어떻게 작동하나? — 학습 데이터 vs 참조/인용(RAG)

모델 1: 학습 데이터 라이선싱

모델 2: 참조/인용 라이선싱 (RAG)

두 모델의 비교

Fortune 500의 67%가 RAG를 도입한 이유

관련 글

멘탯(Mentat)이란? — AI 도서 라이선싱 플랫폼 소개

AI 시대, 출판사가 반드시 알아야 할 5가지

멘탯과 함께 시작하세요