데이터셋 상세보기
텍스트
베링랩
영어-스페인어 병렬 데이터 (Eng-Spa Parallel Corpus v1.0)-
기본정보
등록일자 2024-12-26 12:07:25.292729
조회수 203
-
관련 키워드
기계번역 | 스페인어 | 영어
-
소개
Eng-Spa Parallel Corpus v1.0은 다양한 도메인에서 수집된 영어-스페인어 쌍문장을 포함하고 있습니다.
구축 목적
데이터 특징
데이터셋 명
Eng-Spa Parallel Corpus v1.0데이터셋 구축 목적
영어와 스페인어 간의 자연어 처리 성능 향상을 위해 고품질의 병렬 데이터셋을 구축하여, 신경망 기계 번역(NMT) 모델의 학습 및 평가에 활용하고자 합니다.데이터셋 상세 설명
Eng-Spa Parallel Corpus v1.0은 다양한 도메인에서 수집된 영어-스페인어 쌍문장을 포함하고 있습니다. 이 데이터셋은 뉴스 기사, 법률 문서, 일상 대화, 기술 매뉴얼 등 여러 분야에서 추출된 문장들로 구성되어 있어, 다양한 번역 시나리오에 적용 가능합니다. 모든 문장은 전문가에 의해 검수되었으며, 번역 품질을 보장하기 위해 중복 제거 및 정제 과정을 거쳤습니다.데이터셋 파일 사이즈
총 2.2GB데이터셋 건 수
약 14712103 쌍의 문장데이터셋 수집 기간
2023년 1월부터 2024년 12월까지가공데이터 포맷
- 형식: Txt
- 구조:
- all.en => 영어 txt 파일
- all.es => 스페인어 txt 파일개체명 태그 범주
데이터셋에는 개체명 태그가 포함되어 있지 않으며, 순수한 병렬 문장 데이터로 구성되어 있습니다. 다만, 추후 NER(개체명 인식) 태깅을 위한 추가 가공이 가능합니다.데이터셋 활용 분야
- 신경망 기계 번역(NMT) 모델 학습 및 평가
- 다국어 정보 검색 시스템
- 자연어 이해 및 생성 연구
- 언어 간 의미 유사도 분석
- 다국어 챗봇 개발데이터셋 활용 성과
Eng-Spa Parallel Corpus v1.0을 활용한 NMT 모델은 기존 모델 대비 번역 정확도가 평균 15% 향상되었으며, 특히 기술 및 법률 분야에서의 번역 품질이 크게 개선되었습니다. 또한, 이 데이터셋은 스페인어 자연어 처리 연구의 기반 자료로 활용되어, 다수의 학술 논문과 프로젝트에 기여하였습니다.제공 기관명 베링랩문의 이메일 jiwonseo@beringlab.com -
항목내용데이터셋 제목영어-스페인어 병렬 데이터셋데이터셋 분류문화콘텐츠 > 언어 > 말뭉치파일 포맷TXT수집 장소수집 기간2024-12-26 - 2024-12-26용량
-
상품구성정보
API-
요청변수
API 요청변수 구조표 항목명(국문) 항목명(영문) 크기 항목구분 샘플데이터 설명 요청변수 데이터가 없습니다. 응답변수
API 응답변수 구조표 항목명(국문) 항목명(영문) 크기 항목구분 샘플데이터 설명 응답변수 데이터가 없습니다. 샘플코드
-