펭귄이 OpenAI를 고소한 이유 — '코코스누스' 한 권이 던진 질문

지난 3월 31일, 펭귄 산하 독일 아동도서 출판사가 OpenAI를 상대로 저작권 침해 소송을 제기했습니다. 문제가 된 것은 단 한 권의 책입니다. 독일에서 수십 년간 사랑받아 온 어린이 캐릭터 '코코스누스(Kokosnuss)' 시리즈인데, ChatGPT가 이 책의 내용을 구체적으로 재현해냈다는 것이 소송의 핵심입니다.

책 한 권의 재현 — 무엇이 문제인가

The Guardian의 보도에 따르면, ChatGPT는 코코스누스 시리즈의 등장인물, 줄거리 구조, 특정 문장 표현까지 정확하게 출력했습니다. 출판사 측은 이를 AI가 해당 도서를 학습 데이터로 무단 사용한 증거로 보고 있습니다. AI가 특정 책의 내용을 '기억'해서 재현한다는 것은 단순한 패턴 학습이 아니라 복제에 가깝다는 주장입니다.

이번 소송이 주목받는 이유는 아동도서라는 점 때문이기도 합니다. 아동도서는 문장이 짧고 반복적이며 캐릭터 의존도가 높습니다. 그만큼 AI가 해당 내용을 그대로 흡수하기 쉽고, 재현했을 때 저작물과의 유사성이 더욱 명확하게 드러납니다. 이는 소송에서 침해 사실을 입증하기가 상대적으로 수월하다는 의미이기도 합니다.

공정이용 방어가 흔들리는 이유

지금까지 AI 기업들은 저작권 침해 주장에 맞서 '공정이용(fair use)'을 주된 방어 논리로 활용해 왔습니다. 상업적 이익이 아닌 변환적 목적으로 데이터를 사용했다는 주장입니다. 그런데 이 논리가 최근 들어 급격히 설득력을 잃고 있습니다.

Transparency Coalition의 분석은 이 변화를 정면으로 다루고 있습니다. 핵심 논리는 간단합니다. AI 학습 데이터 거래 시장이 실제로 형성되고 성장하고 있다면, AI 기업이 '그 콘텐츠를 사용할 수 있는 시장이 없었다'고 주장하기 어려워진다는 것입니다. 공정이용 판단의 네 번째 요소인 '잠재적 시장에 미치는 영향'이 바로 이 지점에서 작동합니다. 출판사들이 라이선싱 계약을 실제로 체결하고 있다는 사실 자체가, AI 기업의 무단 사용이 그 시장을 침해한다는 증거가 됩니다.

HarperCollins, Wiley 등 주요 출판사들이 AI 기업과 학습 데이터 라이선싱 계약을 체결하기 시작했습니다
라이선싱 시장이 존재한다는 사실은 '무단 사용에 대체 시장이 없다'는 공정이용 방어를 약화시킵니다
법원은 시장 영향을 판단할 때 현재 시장뿐 아니라 잠재적 라이선싱 시장도 고려합니다
아동도서처럼 내용 재현이 명확한 장르는 침해 입증이 상대적으로 쉽습니다

학습 데이터 시장이 커질수록, AI 기업이 '공정이용'을 방패로 쓸 수 있는 여지는 좁아집니다.

출판사에게 지금 필요한 것

펭귄의 소송은 단순히 한 출판사의 분쟁이 아닙니다. 소송을 통해 '우리 책이 무단으로 학습에 쓰였는지 확인하는 방법', '어떤 증거가 침해 입증에 유효한지'에 대한 선례가 쌓이고 있습니다. 소송 결과와 무관하게, 이 과정 자체가 업계 전체의 협상 근거를 강화합니다. 아직 AI 기업과 어떤 계약도 맺지 않은 출판사라면, 지금이 바로 자사 도서의 학습 데이터 활용 여부를 점검하고 라이선싱 전략을 세워야 할 시점입니다. 멘탯은 출판사가 AI 기업과 공정한 조건으로 라이선싱 협상을 진행할 수 있도록, 계약 구조 설계부터 사용 내역 추적까지 전 과정을 지원하고 있습니다.

펭귄이 OpenAI를 고소한 이유 — '코코스누스' 한 권이 던진 질문

책 한 권의 재현 — 무엇이 문제인가

공정이용 방어가 흔들리는 이유

출판사에게 지금 필요한 것

관련 글

독일·일본 출판사들이 보여주는 두 갈래 전략

대법원 Cox 판결 — 출판사의 AI 소송에 새 무기가 생겼다

멘탯과 함께 시작하세요