AI 기업이 출판사의 도서 콘텐츠를 합법적으로 활용하는 방법은 크게 두 가지입니다. 하나는 학습 데이터로 활용하는 것이고, 다른 하나는 AI 답변 시 도서를 참조/인용하는 것입니다. 두 모델은 기술 구조, 과금 방식, 출판사 수익 패턴이 모두 다릅니다.
학습 데이터 라이선싱은 도서의 전체 텍스트를 JSONL 등의 구조화된 포맷으로 변환하여, AI 모델의 사전학습(pre-training) 또는 미세조정(fine-tuning)에 사용하는 방식입니다.
RAG(Retrieval-Augmented Generation)은 AI가 답변을 생성할 때 외부 데이터베이스에서 관련 문서를 검색하여 인용하는 기술입니다. 참조/인용 라이선싱은 이 과정에서 도서가 인용될 때마다 과금하는 사용량 기반 모델입니다.
학습 데이터 라이선싱은 즉시 수익이 발생하는 일회성 모델이고, 참조/인용 라이선싱은 장기적으로 반복 수익을 만드는 구독형 모델입니다. 대부분의 출판사는 두 모델을 함께 활용하는 것이 최적입니다.
학습 데이터는 도서의 '지식'을 판매하는 것이고, 참조/인용은 도서의 '권위'를 판매하는 것입니다. 둘 다 출판사의 핵심 자산입니다.
Deloitte의 2025년 조사에 따르면 Fortune 500 기업의 67%가 RAG를 도입했거나 도입을 계획하고 있습니다. 단순한 AI 답변이 아니라, 검증된 출처를 기반으로 한 신뢰할 수 있는 답변을 원하기 때문입니다.
AI 기업 입장에서 도서는 가장 신뢰할 수 있는 RAG 소스입니다. 전문 편집 과정을 거쳤고, 저자의 전문성이 검증되어 있으며, 출처 추적이 가능합니다. 멘탯은 이 도서 데이터를 RAG API로 제공하여, AI 기업이 합법적으로 도서를 인용할 수 있는 인프라를 구축하고 있습니다.