Licensed Training Dataset

정식 라이선스된 도서 학습 데이터셋

출판사 권리 확인을 거친 한국어 도서 데이터를 AI 학습에 바로 사용할 수 있는 구조화 포맷으로 제공합니다.

Step 1

권리 확인

Step 2

본문 정제

Step 3

JSONL 구조화

Step 4

품질 샘플링

멘탯의 학습 데이터셋이란?

멘탯의 학습 데이터셋은 출판사와 저자의 권리를 확인한 도서 콘텐츠를 AI 학습에 사용할 수 있도록 라이선싱하고, 모델 개발에 적합한 구조화 데이터로 가공해 제공하는 제품입니다. 일반 웹 크롤링 데이터와 달리 출처, 권리 범위, 저작권자, 사용 조건이 계약으로 정리되어 있어 무단 학습 리스크를 줄일 수 있습니다. 원천 콘텐츠는 도서 단위로 관리되며 제목, 저자, 출판사, ISBN, 장, 절, 문단 등 메타데이터와 함께 정리됩니다. 제공 포맷은 협의에 따라 JSONL, CSV, Parquet 등으로 구성할 수 있고, 중복 제거, 정제, 문단 분할, 민감 정보 검토, 품질 샘플링 같은 처리 과정을 거칩니다. 멘탯은 참조/인용 기반 활용을 우선 설계하고, 그 다음 단계로 학습 데이터 라이선싱을 연결하는 구조를 지향합니다. 이 방식은 콘텐츠가 어디에서 왔는지 설명 가능한 상태를 유지하면서, 한국어 지식 데이터가 필요한 AI 제품이 합법적이고 안정적인 입력 데이터를 확보하도록 돕습니다. 데이터 제공 범위, 갱신 주기, 삭제 조건, 모델 학습 후 사용 범위는 계약 단계에서 명확히 정리됩니다.

Dataset Scope

도서 데이터를 학습 가능한 형태로 정리합니다

권리 확인, 본문 정제, 메타데이터 구조화, 전달 포맷까지 하나의 라이선싱 흐름으로 관리합니다.

권리 확인 기반

출판사와 저자의 권리 범위, 허용 용도, 계약 조건을 확인한 뒤 데이터셋 범위를 확정합니다.

AI-ready 포맷

본문과 메타데이터를 JSONL 등 학습 파이프라인에 넣기 쉬운 구조로 제공합니다.

품질 관리

중복, 노이즈, 스캔 오류, 구조 누락을 점검해 모델 입력 데이터의 신뢰도를 높입니다.

Workflow

라이선싱부터 전달까지 한 흐름으로 처리합니다

01

범위 정의

필요한 주제, 도서군, 언어, 분량, 사용 목적을 기준으로 데이터셋 범위를 정합니다.

02

권리 확인

출판사 권리와 저자 동의 필요 여부를 확인하고 라이선싱 조건을 정리합니다.

03

데이터 가공

본문 정제, 문단 분할, 메타데이터 매핑, 품질 샘플링을 수행합니다.

04

전달 및 관리

합의된 포맷으로 전달하고 갱신, 삭제, 사용 범위 조건을 문서화합니다.

Licensing First

설명 가능한 데이터 조달이 필요합니다

AI 모델의 성능은 데이터 품질과 권리 안정성에 동시에 의존합니다. 멘탯은 도서 콘텐츠를 단순 파일 묶음이 아니라 라이선스, 메타데이터, 처리 이력, 사용 조건이 함께 정리된 데이터 제품으로 제공합니다.

학습 데이터셋 범위를 함께 설계하세요

필요한 주제, 포맷, 사용 목적을 알려주시면 라이선싱 가능한 도서 데이터 범위를 검토합니다.