AI 학습 데이터 시장이 빠르게 커지고 있습니다. 대형 언어 모델(LLM) 개발 경쟁이 가속화되면서, 고품질 텍스트 데이터에 대한 수요도 함께 폭발적으로 늘고 있습니다. 특히 AI 학습 데이터 가운데 도서 콘텐츠가 차지하는 비중은 점점 높아지는 추세입니다. 출판사들이 이 흐름을 이해해야 하는 이유가 여기에 있습니다.
시장조사 기관들의 추정치는 조금씩 다르지만, 방향성은 일치합니다. 글로벌 AI 학습 데이터 시장은 2024년 기준 약 40~50억 달러 규모로 추산되며, 2030년에는 200억 달러를 훌쩍 넘을 것으로 전망됩니다. 연평균 성장률(CAGR)은 약 25~30% 수준입니다. 이는 AI 인프라 전체 시장의 성장률을 웃도는 수치입니다.
이 성장의 배경에는 몇 가지 구조적 요인이 있습니다. 첫째, LLM의 성능은 학습 데이터의 양과 질에 직결됩니다. 단순히 인터넷에서 긁어모은 텍스트로는 한계에 도달하고 있다는 인식이 AI 기업들 사이에서 공유되고 있습니다. 둘째, 저작권 소송 리스크가 커지면서 합법적으로 취득한 라이선스 데이터의 가치가 올라가고 있습니다. 셋째, 금융·법률·의학·교육처럼 전문성이 요구되는 영역에서 정확하고 신뢰할 수 있는 텍스트 데이터 수요가 급증하고 있습니다.
AI 학습 데이터 시장 안에서도 도서는 특수한 위치를 차지합니다. 웹 크롤링 데이터와 달리, 책은 편집 과정을 거친 구조화된 텍스트입니다. 사실 확인, 논리적 서술, 일관된 문체가 보장된 콘텐츠입니다. AI가 단순한 정보 검색을 넘어 추론과 설명 능력을 갖추려면 이런 종류의 텍스트가 반드시 필요합니다.
실제로 Bloomsbury는 AI 라이선싱이 실질적인 수익 원천이 되고 있다고 공식적으로 밝혔습니다. HarperCollins와 Wiley도 일찌감치 Microsoft와 AI 학습 데이터 계약을 체결했습니다. 대형 출판사들은 이미 이 시장에 진입해 있습니다. 문제는 중소 출판사들이 아직 이 흐름에서 소외되어 있다는 점입니다.
AI 기업들이 합법적인 도서 데이터를 확보하려는 압력은 앞으로 더 강해질 것입니다. Meta를 상대로 한 대형 출판사들의 집단소송, Nvidia·Apple·구글을 향한 저작권 소송들은 AI 기업들에게 명확한 신호를 보내고 있습니다. 법적 리스크를 피하려면 반드시 라이선스 계약을 체결해야 한다는 것입니다. 이는 곧 출판사들의 협상력이 높아진다는 의미이기도 합니다.
AI 학습 데이터 시장의 성장은 출판사에게 새로운 수익 채널입니다. 단, 아무 준비 없이 앉아서 기다리는 출판사에게는 해당하지 않습니다.
멘탯은 이 시장에서 출판사와 AI 기업을 연결하는 라이선싱 플랫폼입니다. 도서 콘텐츠의 AI 학습 데이터 라이선싱부터 RAG 기반 인용 라이선싱까지, 출판사가 실질적인 수익을 올릴 수 있는 구조를 만들어 드립니다. 대형 출판사가 아니어도, AI 라이선싱 시장에 참여할 수 있습니다. 출판사 서비스 페이지에서 자세한 내용을 확인하실 수 있습니다.