AI 학습 데이터 시장이 본격화되면서 출판사들의 관심이 높아지고 있습니다. 그런데 소설이나 에세이보다 의외로 더 주목받는 콘텐츠가 있습니다. 바로 비문학 도서입니다. 역사서, 과학 교양서, 경제경영서, 의학·법률 전문서 — AI 기업들이 실제로 원하는 것은 이쪽입니다.
LLM(대형 언어 모델)은 학습 데이터의 질에 따라 성능이 크게 달라집니다. 웹 크롤링으로 수집한 텍스트는 방대하지만, 오류와 노이즈가 많습니다. 반면 출판된 비문학 도서는 편집자와 팩트체커를 거친 검증된 지식의 집합체입니다. AI 기업 입장에서 이는 단순한 텍스트가 아니라 '신뢰할 수 있는 사실 데이터'입니다.
특히 RAG(검색 증강 생성) 방식이 확산되면서 비문학 도서의 가치는 더욱 높아졌습니다. RAG는 AI가 답변을 생성할 때 외부 문서를 실시간으로 참조하는 방식인데, 이때 참조되는 문서의 정확도가 AI 답변의 신뢰도를 결정합니다. 검증된 전문서적은 이 용도에 최적입니다.
비문학 도서라도 장르에 따라 AI 기업의 수요가 다릅니다. 의학·법률·금융 전문서는 '고위험 도메인'에 해당해 AI 기업들이 특히 신뢰할 수 있는 소스를 원합니다. 규제 환경이 강화될수록 AI 기업은 답변 근거를 명확히 제시해야 하기 때문입니다. 실제로 Thomson Reuters는 Westlaw 법률 데이터베이스 기반의 AI 서비스를 선보이며 법률 문서의 인용 가능성을 핵심 가치로 내세웠습니다.
역사·사회과학 분야도 마찬가지입니다. AI가 민감한 역사적 사건이나 사회 현상을 설명할 때 검증된 학술 도서에 근거를 두면 할루시네이션(환각) 위험을 줄일 수 있습니다. 한편 자기계발·경제경영서는 수요층이 넓고 업무 자동화 AI에 자주 활용되어, 상업적 라이선싱 협상에서 유리한 위치를 점하고 있습니다. Wiley가 Microsoft와 맺은 AI 라이선싱 계약도 학술·전문 비문학 콘텐츠가 중심이었습니다.
소설은 AI가 스타일을 배우는 데 쓰입니다. 비문학은 AI가 사실을 배우는 데 쓰입니다. 사실이 없는 AI는 자신감 넘치는 거짓말쟁이가 됩니다.
비문학 출판사에게 지금은 단순히 침해 대응에 그칠 시기가 아닙니다. AI 기업이 원하는 콘텐츠를 보유하고 있다는 사실, 그 자체가 협상력입니다. 단, 이 협상력을 실제 수익으로 전환하려면 자신의 카탈로그가 어떤 도메인에 강점을 갖는지, 어떤 사용 목적(학습 데이터인지, RAG 인용인지)에 적합한지를 파악해야 합니다. 용도가 다르면 계약 구조도, 단가도 달라집니다. 멘탯은 비문학 출판사가 보유한 콘텐츠의 AI 라이선싱 가치를 정확히 분류하고, 적합한 AI 기업과 연결하는 플랫폼입니다. 출판사 서비스 페이지에서 자세한 내용을 확인하실 수 있습니다.