AI 데이터지원 > 데이터 찾기 > 데이터셋 검색

데이터셋 상세보기

영어-스페인어 병렬 데이터 (Eng-Spa Parallel Corpus v1.0)

문화콘텐츠 개방 즉시 사용

텍스트

베링랩

영어-스페인어 병렬 데이터 (Eng-Spa Parallel Corpus v1.0)

기본정보

등록일자 2024-12-26 12:07:25.292729

조회수 203
관련 키워드

기계번역 | 스페인어 | 영어

소개

Eng-Spa Parallel Corpus v1.0은 다양한 도메인에서 수집된 영어-스페인어 쌍문장을 포함하고 있습니다.

구축 목적

데이터 특징

데이터셋 명
Eng-Spa Parallel Corpus v1.0

데이터셋 구축 목적
영어와 스페인어 간의 자연어 처리 성능 향상을 위해 고품질의 병렬 데이터셋을 구축하여, 신경망 기계 번역(NMT) 모델의 학습 및 평가에 활용하고자 합니다.

데이터셋 상세 설명
Eng-Spa Parallel Corpus v1.0은 다양한 도메인에서 수집된 영어-스페인어 쌍문장을 포함하고 있습니다. 이 데이터셋은 뉴스 기사, 법률 문서, 일상 대화, 기술 매뉴얼 등 여러 분야에서 추출된 문장들로 구성되어 있어, 다양한 번역 시나리오에 적용 가능합니다. 모든 문장은 전문가에 의해 검수되었으며, 번역 품질을 보장하기 위해 중복 제거 및 정제 과정을 거쳤습니다.

데이터셋 파일 사이즈
총 2.2GB

데이터셋 건 수
약 14712103 쌍의 문장

데이터셋 수집 기간
2023년 1월부터 2024년 12월까지

가공데이터 포맷
- 형식: Txt
- 구조:
- all.en => 영어 txt 파일
- all.es => 스페인어 txt 파일

개체명 태그 범주
데이터셋에는 개체명 태그가 포함되어 있지 않으며, 순수한 병렬 문장 데이터로 구성되어 있습니다. 다만, 추후 NER(개체명 인식) 태깅을 위한 추가 가공이 가능합니다.

데이터셋 활용 분야
- 신경망 기계 번역(NMT) 모델 학습 및 평가
- 다국어 정보 검색 시스템
- 자연어 이해 및 생성 연구
- 언어 간 의미 유사도 분석
- 다국어 챗봇 개발

데이터셋 활용 성과
Eng-Spa Parallel Corpus v1.0을 활용한 NMT 모델은 기존 모델 대비 번역 정확도가 평균 15% 향상되었으며, 특히 기술 및 법률 분야에서의 번역 품질이 크게 개선되었습니다. 또한, 이 데이터셋은 스페인어 자연어 처리 연구의 기반 자료로 활용되어, 다수의 학술 논문과 프로젝트에 기여하였습니다.

제공 기관명 베링랩

문의 이메일 jiwonseo@beringlab.com

항목

내용

데이터셋 제목

영어-스페인어 병렬 데이터셋

데이터셋 분류

문화콘텐츠 > 언어 > 말뭉치

파일 포맷

TXT

수집 장소

수집 기간

2024-12-26 - 2024-12-26

용량

상품구성정보

API

요청변수

API 요청변수 구조표
항목명(국문)	항목명(영문)	크기	항목구분	샘플데이터	설명
요청변수 데이터가 없습니다.

응답변수

API 응답변수 구조표
항목명(국문)	항목명(영문)	크기	항목구분	샘플데이터	설명
응답변수 데이터가 없습니다.

AI 데이터지원

전체메뉴

데이터셋 검색

데이터셋 상세보기

기본정보

관련 키워드

소개

구축 목적

데이터 특징

상품구성정보

요청변수

응답변수

샘플코드