AI 기업들이 대규모 언어 모델(LLM)을 학습시키기 위해 수백만 권의 도서를 사용해 왔다는 사실이 속속 드러나고 있습니다. 문제는 대부분의 저자들이 이 사실을 모른 채 넘어갔다는 점입니다. AI 도서 라이선싱이 출판 산업의 새로운 현실이 된 지금, 저자 스스로 자신의 권리와 선택지를 이해하는 것이 그 어느 때보다 중요해졌습니다.
AI 기업들이 학습 데이터로 활용한 경로는 크게 세 가지입니다. 첫째, Books3나 LibGen 같은 해적판 데이터셋을 통해 저자 동의 없이 책을 수집했습니다. Nvidia 내부 이메일이 공개되면서 이 관행이 얼마나 광범위했는지가 드러났습니다. 둘째, 인터넷에 공개된 도서 샘플이나 미리보기 텍스트를 크롤링했습니다. 셋째, 출판사와의 정식 라이선싱 계약을 통해 콘텐츠를 확보했습니다. 세 번째 경우가 가장 적지만, 유일하게 저자에게 수익이 돌아올 수 있는 구조입니다.
대부분의 출판 계약에서 AI 학습 데이터 관련 권리는 명시적으로 다루어지지 않았습니다. 이 때문에 저자와 출판사 사이에 해석이 엇갈리는 경우가 생기고 있습니다. Authors Guild에 따르면, 2023년 이전 계약서의 대다수는 AI 학습 허락 여부를 명시하지 않았습니다. 현재 알아야 할 핵심 구조는 다음과 같습니다.
AI 학습 데이터 라이선싱은 저자가 알지 못하는 사이에 진행되는 경우가 많습니다. 계약서를 다시 꺼내 읽는 것, 그것이 첫 번째 행동입니다.
AI 라이선싱을 무조건 거부하는 것이 정답은 아닙니다. 정당한 대가를 받고 콘텐츠를 제공하는 것과, 아무것도 모른 채 무단으로 사용당하는 것은 전혀 다른 이야기입니다. 중요한 것은 선택권이 저자에게 있어야 한다는 점입니다. AI 기업들이 고품질 도서 콘텐츠를 필요로 한다는 사실은 오히려 저자에게 유리한 협상 조건을 만들어 주고 있습니다.
멘탯은 출판사와 AI 기업을 연결하는 도서 AI 라이선싱 플랫폼으로, 저자 권리가 계약 구조 안에서 보호될 수 있도록 출판사와 함께 작동합니다. 소속 출판사가 멘탯을 통해 AI 라이선싱 프로그램을 운영하고 있다면, 저자도 그 수익 분배 구조 안에 포함될 수 있습니다. AI 라이선싱이 어떻게 작동하는지 직접 확인해 보고 싶다면 서비스 시연을 통해 알아볼 수 있습니다.