AI가 책을 '참고'하는 게 아니라 '암기'한다면, 저작권 침해의 성격이 완전히 달라집니다. 파이낸셜 타임스의 최근 보도에 따르면, 대형 언어 모델이 학습 데이터에 포함된 소설의 문장을 거의 그대로 재현할 수 있다는 사실이 연구를 통해 확인되고 있습니다. 이를 AI 업계에서는 '메모리제이션(memorisation)' 문제라고 부릅니다.
연구자들이 특정 프롬프트를 입력했을 때, AI는 해리 포터 시리즈나 유명 소설의 문장을 수십 줄씩 그대로 출력했습니다. 이는 AI가 해당 텍스트를 '이해'한 게 아니라, 사실상 저장하고 있다는 의미입니다. 인간 독자가 책을 읽고 요약하는 것과는 본질적으로 다릅니다.
"빅테크의 AI 원죄는 보상 없이 내 책을 해적질한 것이다." — AFR 기고 저자
AFR에 기고한 한 저자는 자신의 책이 허락도, 보상도 없이 AI 학습에 사용된 사실을 직접적으로 '해적질(pirating)'이라고 표현했습니다. 단순한 수사가 아닙니다. AI가 해당 책의 내용을 그대로 재현할 수 있다면, 독자는 책을 살 이유가 줄어들고, 출판사와 저자는 직접적인 시장 피해를 입게 됩니다.
AI 기업들은 그동안 '학습은 변환적 이용(transformative use)이므로 공정 이용에 해당한다'는 논리를 내세워 왔습니다. 그러나 메모리제이션 현상은 이 주장의 약점을 정확히 찌릅니다. 원문을 그대로 재현하는 행위는 어떤 법적 기준으로도 변환적 이용으로 보기 어렵습니다. 법원의 판단이 엇갈리는 상황에서, 소송이 아닌 라이선싱 계약이 출판사에게 더 확실한 보호 수단이 될 수 있습니다.
메모리제이션은 기술 문제가 아닙니다. 도서 시장의 구조적 위협입니다. AI가 책을 외워서 무료로 배포하는 상황이 지속된다면, 출판사의 콘텐츠 자산 가치는 서서히 잠식될 수밖에 없습니다. 지금이 계약 협상력이 가장 높은 시점입니다.
멘탯은 출판사가 자사 도서가 AI 학습에 어떻게 활용되는지 파악하고, 적절한 조건 아래 라이선싱 계약을 체결할 수 있도록 돕는 플랫폼입니다. 소송 대신 계약으로, 피해 확인 대신 수익 창출로 전환하는 것—그것이 멘탯이 출판사와 함께 만들어가는 방향입니다.