가이드2026. 6. 5.·전병욱

AI 기업이 합법적 도서 데이터를 원하는 진짜 이유

AI 기업들이 도서 출판사와 AI 도서 라이선싱 계약을 맺으려는 이유가 단지 소송을 피하기 위해서라고 생각하기 쉽습니다. 하지만 실제로 현장에서 들려오는 이야기는 다릅니다. 합법적인 LLM 학습 데이터에 대한 수요는 법적 방어막 이상의 이유에서 비롯됩니다. 데이터 품질, 환각 감소, 장기적인 사업 지속성 — 이 세 가지가 AI 기업들이 정식 라이선싱 도서 데이터로 눈을 돌리는 진짜 이유입니다.

첫 번째 이유: 할루시네이션은 데이터 품질 문제입니다

LLM이 존재하지 않는 논문을 인용하거나, 역사적 사실을 뒤섞거나, 약물 용량을 잘못 제시하는 문제 — 이른바 '환각(hallucination)'은 AI 기업들이 가장 골머리를 앓는 과제입니다. 환각은 근본적으로 학습 데이터의 신호 대 노이즈 비율 문제입니다. 인터넷에서 긁어모은 데이터는 오류, 중복, 의견, 허위 정보가 뒤섞여 있습니다. 반면 출판 과정을 거친 도서 데이터는 편집자, 팩트체커, 전문가 검토를 통과한 콘텐츠입니다. AI 기업 입장에서 이는 단순한 '더 나은 데이터'가 아니라, 신뢰할 수 있는 출력을 만들기 위한 기반입니다.

도서는 출판 전 편집·검수 과정을 거쳐 사실 오류가 걸러진 콘텐츠입니다
학술서·전문서는 해당 분야의 권위 있는 지식 체계를 반영합니다
서사 구조가 명확해 모델이 논리적 흐름을 학습하기에 적합합니다
인터넷 텍스트에 비해 중복·스팸 데이터가 현저히 적습니다

두 번째 이유: 법적 리스크는 이미 현실이 됩니다

해적판 도서로 AI를 학습시키는 것이 얼마나 위험한지는 이미 여러 사례가 보여주고 있습니다. Nvidia의 경우 내부 이메일이 공개되면서 저작권 소송에서 결정적으로 불리한 위치에 놓였고, Meta는 Llama 모델 학습에 LibGen 등 불법 데이터셋을 활용했다는 증거가 나오면서 대형 출판사들의 집단소송에 직면해 있습니다. 단순히 '걸릴 수도 있다'는 가능성의 문제가 아닙니다. 이미 걸리고 있습니다. 합법적 라이선싱은 이 리스크를 원천 차단하는 유일한 방법입니다. AI 기업 법무팀이 라이선싱 예산을 확보하려는 이유도 여기에 있습니다.

출판사가 AI 기업에게 데이터를 파는 것이 아닙니다. AI 기업이 법적 확실성과 데이터 품질을 동시에 사는 것입니다.

세 번째 이유: 지속가능한 데이터 공급망이 필요합니다

AI 모델은 한 번 학습하고 끝나지 않습니다. 지속적인 파인튜닝, RAG 기반 인용, 도메인 특화 모델 개발 등에서 고품질 데이터는 계속 필요합니다. 만약 AI 기업이 해적판 데이터에 의존하다가 법원 명령이나 합의를 통해 해당 데이터를 삭제해야 한다면, 모델 자체를 처음부터 다시 학습시켜야 하는 상황이 올 수 있습니다. 이는 수억 달러의 비용이 걸린 문제입니다. 반면 정식 라이선싱 계약은 데이터 공급의 연속성을 보장하고, 신간 도서 데이터에도 안정적으로 접근할 수 있는 경로를 열어줍니다. 블룸즈버리가 AI 라이선싱 수익을 공식 실적으로 발표하기 시작한 것은 이 시장이 이미 실질적인 거래 단계에 들어섰다는 신호입니다.

출판사 입장에서 이 흐름은 중요한 시사점을 줍니다. AI 기업들이 원하는 것은 단순히 '텍스트 덩어리'가 아닙니다. 검증된 지식, 법적 안전성, 안정적 공급 — 이 세 가지를 동시에 제공할 수 있는 파트너를 찾고 있습니다. 멘탯은 출판사가 이 조건을 갖춘 파트너로 AI 기업 앞에 설 수 있도록 출판사 서비스를 제공합니다. 계약 구조 설계부터 데이터 납품, 수익 정산까지 — 출판사가 협상 테이블에서 올바른 질문을 할 수 있도록 돕는 것이 멘탯의 역할입니다.

AI 기업이 합법적 도서 데이터를 원하는 진짜 이유

첫 번째 이유: 할루시네이션은 데이터 품질 문제입니다

두 번째 이유: 법적 리스크는 이미 현실이 됩니다

세 번째 이유: 지속가능한 데이터 공급망이 필요합니다

관련 글

AI 학습 데이터 라이선싱과 인용 라이선싱 — 출판사가 꼭 알아야 할 차이

출판사가 AI 라이선싱 계약서에서 꼭 확인해야 할 5가지

멘탯과 함께 시작하세요