Nvidia 이메일이 드러낸 것 — 해적판 도서로 AI를 학습시키다

지난주 터진 Nvidia 소송 관련 내부 이메일 유출은 AI 업계 전체에 불편한 질문을 던지고 있습니다. 단순히 한 기업의 일탈이 아니라, AI 학습 데이터를 조달하는 관행 자체가 도마 위에 오른 것입니다.

이메일이 드러낸 것: '불법인 줄 알면서도'

QUASA Connect의 보도에 따르면, Nvidia 직원들은 이메일을 통해 해적판 도서 데이터셋을 적극적으로 수집하려 했다는 정황이 드러났습니다. 더 충격적인 것은, 일부 이메일에서 해당 자료가 저작권 문제가 있을 수 있다는 사실을 인지하면서도 진행한 정황이 포착됐다는 점입니다. '알면서도 했다'는 것이 법적 책임의 무게를 크게 높입니다.

이번 사건은 Nvidia만의 문제가 아닙니다. 주간경향의 보도에서도 지적하듯, Anthropic 역시 수백만 권의 도서를 무단 스캔한 사실이 밝혀지면서 AI 산업 전반의 데이터 조달 방식이 근본적으로 문제를 안고 있었음이 드러나고 있습니다.

출판사 입장에서 이 사건이 의미하는 것

AI 기업들이 '공개된 데이터'라고 주장했던 것의 상당 부분이 불법 경로로 수집됐을 가능성이 있습니다
소송 과정에서 내부 이메일이 증거로 제출되면서, 앞으로 AI 기업들의 데이터 조달 과정이 법적 검증대 위에 오르게 됩니다
이는 역설적으로 출판사들의 협상 카드가 강해진다는 의미이기도 합니다 — 합법적인 라이선싱 경로의 가치가 그만큼 올라갑니다
이미 소송에 참여한 출판사들은 이번 증거로 인해 더 유리한 위치를 점하게 됐습니다

AI 기업이 해적판 도서를 쓴다는 것은, 출판사 콘텐츠에 가치가 있다는 방증입니다. 문제는 그 가치를 정당하게 인정받지 못했다는 것입니다.

이제 AI 기업들도 '합법적 루트'가 필요해졌다

역설적이게도, 이런 스캔들이 반복될수록 AI 기업 내부에서도 합법적인 데이터 라이선싱 수요가 높아집니다. 소송 리스크가 현실화되고, 내부 이메일이 법정 증거가 될 수 있다는 것을 알게 된 이상, '그냥 가져다 쓰는' 방식은 점점 선택지에서 멀어질 수밖에 없습니다. 실제로 HarperCollins, Wiley 같은 대형 출판사들이 이미 Microsoft와 라이선싱 계약을 체결한 것도 이 흐름의 일부입니다.

멘탯은 바로 이 지점을 겨냥하고 있습니다. 출판사가 보유한 도서 콘텐츠를 AI 기업이 합법적으로 사용할 수 있도록 연결하는 것 — 이것이 스캔들 이후 시장이 필요로 하는 인프라입니다. 소송으로 가기 전에, 출판사와 AI 기업 모두가 테이블에 앉을 수 있는 구조가 필요합니다.

Nvidia 이메일이 드러낸 것 — 해적판 도서로 AI를 학습시키다

이메일이 드러낸 것: '불법인 줄 알면서도'

출판사 입장에서 이 사건이 의미하는 것

이제 AI 기업들도 '합법적 루트'가 필요해졌다

관련 글

대법원 Cox 판결 — 출판사의 AI 소송에 새 무기가 생겼다

AI가 '딸깍' 만든 책 — 납본 제외가 출판계에 던지는 질문

멘탯과 함께 시작하세요