지난주 터진 Nvidia 소송 관련 내부 이메일 유출은 AI 업계 전체에 불편한 질문을 던지고 있습니다. 단순히 한 기업의 일탈이 아니라, AI 학습 데이터를 조달하는 관행 자체가 도마 위에 오른 것입니다.
QUASA Connect의 보도에 따르면, Nvidia 직원들은 이메일을 통해 해적판 도서 데이터셋을 적극적으로 수집하려 했다는 정황이 드러났습니다. 더 충격적인 것은, 일부 이메일에서 해당 자료가 저작권 문제가 있을 수 있다는 사실을 인지하면서도 진행한 정황이 포착됐다는 점입니다. '알면서도 했다'는 것이 법적 책임의 무게를 크게 높입니다.
이번 사건은 Nvidia만의 문제가 아닙니다. 주간경향의 보도에서도 지적하듯, Anthropic 역시 수백만 권의 도서를 무단 스캔한 사실이 밝혀지면서 AI 산업 전반의 데이터 조달 방식이 근본적으로 문제를 안고 있었음이 드러나고 있습니다.
AI 기업이 해적판 도서를 쓴다는 것은, 출판사 콘텐츠에 가치가 있다는 방증입니다. 문제는 그 가치를 정당하게 인정받지 못했다는 것입니다.
역설적이게도, 이런 스캔들이 반복될수록 AI 기업 내부에서도 합법적인 데이터 라이선싱 수요가 높아집니다. 소송 리스크가 현실화되고, 내부 이메일이 법정 증거가 될 수 있다는 것을 알게 된 이상, '그냥 가져다 쓰는' 방식은 점점 선택지에서 멀어질 수밖에 없습니다. 실제로 HarperCollins, Wiley 같은 대형 출판사들이 이미 Microsoft와 라이선싱 계약을 체결한 것도 이 흐름의 일부입니다.
멘탯은 바로 이 지점을 겨냥하고 있습니다. 출판사가 보유한 도서 콘텐츠를 AI 기업이 합법적으로 사용할 수 있도록 연결하는 것 — 이것이 스캔들 이후 시장이 필요로 하는 인프라입니다. 소송으로 가기 전에, 출판사와 AI 기업 모두가 테이블에 앉을 수 있는 구조가 필요합니다.