본문 바로가기

데이터셋 상세보기

영어-스페인어 병렬 데이터 (Eng-Spa Parallel Corpus v1.0)
문화콘텐츠 개방 즉시 사용

텍스트

베링랩

영어-스페인어 병렬 데이터 (Eng-Spa Parallel Corpus v1.0)
  • 기본정보

    등록일자 2024-12-26 12:07:25.292729

    조회수 203

  • 관련 키워드

    기계번역 | 스페인어 | 영어

  • 소개

    Eng-Spa Parallel Corpus v1.0은 다양한 도메인에서 수집된 영어-스페인어 쌍문장을 포함하고 있습니다.

    구축 목적

    데이터 특징

    데이터셋 명  
    Eng-Spa Parallel Corpus v1.0

    데이터셋 구축 목적  
    영어와 스페인어 간의 자연어 처리 성능 향상을 위해 고품질의 병렬 데이터셋을 구축하여, 신경망 기계 번역(NMT) 모델의 학습 및 평가에 활용하고자 합니다.

    데이터셋 상세 설명  
    Eng-Spa Parallel Corpus v1.0은 다양한 도메인에서 수집된 영어-스페인어 쌍문장을 포함하고 있습니다. 이 데이터셋은 뉴스 기사, 법률 문서, 일상 대화, 기술 매뉴얼 등 여러 분야에서 추출된 문장들로 구성되어 있어, 다양한 번역 시나리오에 적용 가능합니다. 모든 문장은 전문가에 의해 검수되었으며, 번역 품질을 보장하기 위해 중복 제거 및 정제 과정을 거쳤습니다.

    데이터셋 파일 사이즈  
    총 2.2GB

    데이터셋 건 수  
    약 14712103  쌍의 문장

    데이터셋 수집 기간  
    2023년 1월부터 2024년 12월까지

    가공데이터 포맷  
    - 형식: Txt  
    - 구조:  
      - all.en => 영어 txt 파일  
      - all.es => 스페인어 txt 파일

    개체명 태그 범주  
    데이터셋에는 개체명 태그가 포함되어 있지 않으며, 순수한 병렬 문장 데이터로 구성되어 있습니다. 다만, 추후 NER(개체명 인식) 태깅을 위한 추가 가공이 가능합니다.

    데이터셋 활용 분야  
    - 신경망 기계 번역(NMT) 모델 학습 및 평가  
    - 다국어 정보 검색 시스템  
    - 자연어 이해 및 생성 연구  
    - 언어 간 의미 유사도 분석  
    - 다국어 챗봇 개발

    데이터셋 활용 성과  
    Eng-Spa Parallel Corpus v1.0을 활용한 NMT 모델은 기존 모델 대비 번역 정확도가 평균 15% 향상되었으며, 특히 기술 및 법률 분야에서의 번역 품질이 크게 개선되었습니다. 또한, 이 데이터셋은 스페인어 자연어 처리 연구의 기반 자료로 활용되어, 다수의 학술 논문과 프로젝트에 기여하였습니다.

    제공 기관명 베링랩
    문의 이메일 jiwonseo@beringlab.com
  • 항목
    내용
    데이터셋 제목
    영어-스페인어 병렬 데이터셋
    데이터셋 분류
    문화콘텐츠 > 언어 > 말뭉치
    파일 포맷
    TXT
    수집 장소
    수집 기간
    2024-12-26 - 2024-12-26
    용량

  • 상품구성정보


    API

    -

    요청변수

    API 요청변수 구조표
    항목명(국문) 항목명(영문) 크기 항목구분 샘플데이터 설명
    요청변수 데이터가 없습니다.

    응답변수

    API 응답변수 구조표
    항목명(국문) 항목명(영문) 크기 항목구분 샘플데이터 설명
    응답변수 데이터가 없습니다.

    샘플코드


    -

유관사이트