멘탯의 학습 데이터셋이란?
멘탯의 학습 데이터셋은 출판사와 저자의 권리를 확인한 도서 콘텐츠를 AI 학습에 사용할 수 있도록 라이선싱하고, 모델 개발에 적합한 구조화 데이터로 가공해 제공하는 제품입니다. 일반 웹 크롤링 데이터와 달리 출처, 권리 범위, 저작권자, 사용 조건이 계약으로 정리되어 있어 무단 학습 리스크를 줄일 수 있습니다. 원천 콘텐츠는 도서 단위로 관리되며 제목, 저자, 출판사, ISBN, 장, 절, 문단 등 메타데이터와 함께 정리됩니다. 제공 포맷은 협의에 따라 JSONL, CSV, Parquet 등으로 구성할 수 있고, 중복 제거, 정제, 문단 분할, 민감 정보 검토, 품질 샘플링 같은 처리 과정을 거칩니다. 멘탯은 참조/인용 기반 활용을 우선 설계하고, 그 다음 단계로 학습 데이터 라이선싱을 연결하는 구조를 지향합니다. 이 방식은 콘텐츠가 어디에서 왔는지 설명 가능한 상태를 유지하면서, 한국어 지식 데이터가 필요한 AI 제품이 합법적이고 안정적인 입력 데이터를 확보하도록 돕습니다. 데이터 제공 범위, 갱신 주기, 삭제 조건, 모델 학습 후 사용 범위는 계약 단계에서 명확히 정리됩니다.
도서 데이터를 학습 가능한 형태로 정리합니다
권리 확인, 본문 정제, 메타데이터 구조화, 전달 포맷까지 하나의 라이선싱 흐름으로 관리합니다.
권리 확인 기반
출판사와 저자의 권리 범위, 허용 용도, 계약 조건을 확인한 뒤 데이터셋 범위를 확정합니다.
AI-ready 포맷
본문과 메타데이터를 JSONL 등 학습 파이프라인에 넣기 쉬운 구조로 제공합니다.
품질 관리
중복, 노이즈, 스캔 오류, 구조 누락을 점검해 모델 입력 데이터의 신뢰도를 높입니다.
라이선싱부터 전달까지 한 흐름으로 처리합니다
범위 정의
필요한 주제, 도서군, 언어, 분량, 사용 목적을 기준으로 데이터셋 범위를 정합니다.
권리 확인
출판사 권리와 저자 동의 필요 여부를 확인하고 라이선싱 조건을 정리합니다.
데이터 가공
본문 정제, 문단 분할, 메타데이터 매핑, 품질 샘플링을 수행합니다.
전달 및 관리
합의된 포맷으로 전달하고 갱신, 삭제, 사용 범위 조건을 문서화합니다.
설명 가능한 데이터 조달이 필요합니다
AI 모델의 성능은 데이터 품질과 권리 안정성에 동시에 의존합니다. 멘탯은 도서 콘텐츠를 단순 파일 묶음이 아니라 라이선스, 메타데이터, 처리 이력, 사용 조건이 함께 정리된 데이터 제품으로 제공합니다.