본문 바로가기

데이터셋 상세보기

단백질-리간드 추가 데이터셋
헬스케어 개방 기관 승인

기타

아이젠사이언스

단백질-리간드 추가 데이터셋
  • 기본정보

    등록일자 2024-12-18 16:42:55.645368

    조회수 75

  • 관련 키워드

    결합 | 단백질 | 리간드 | 생성 | 신약개발

  • 소개

    신약 개발에서 가장 큰 과제 중 하나인 단백질-리간드 결합 친화도 예측을 위해 만들어진 데이터셋

    구축 목적

    데이터 특징

    데이터 소개

    • 데이터 소개: CrossDocked2020 데이터셋은 신약 개발에서 가장 큰 과제 중 하나인 단백질-리간드 결합 친화도 예측을 위해 만들어졌습니다. 이 데이터셋은 Protein Data Bank에서 추출한 유사한 결합 포켓들에 대해 도킹된 리간드 포즈를 포함하고 있습니다.
    • 데이터 크기: 225000 -> 정제 후 약 150000개의 리간드-데이터 바인딩 포즈 셋
    • 데이터 구성: lmdb 데이터셋, test 데이터 모음, data split index
      • 각 단백질-리간드 쌍의 구성:
      • 단백질 구조 파일: .pdb 확장자
      • 리간드 구조 파일: .sdf.gz 형식 (압축된 구조 데이터 파일)
      • RMSD (Root Mean Square Deviation) 값: 리간드의 도킹 품질을 나타내는 지표
    • 데이터 정제 과정:
      • 단백질-리간드 쌍에 대한 정보가 담긴 types 파일을 읽습니다
      • RMSD 임계값을 기준으로 쌍들을 필터링합니다
      • 유효한 각 쌍에 대해:
        • 단백질 PDB 파일을 대상 디렉토리로 복사
        • SDF 파일에서 특정 리간드 구조를 추출하여 저장
        • 압축된(gzip) 및 일반 SDF 파일 모두 처리 가능
      • lmdb 형식으로 저장 
    구축목적
    • 단백질 특이적 약물 생성 인공지능 모델 개발을 위해 추가로 데집
    데이터 활용사례
    • 약물개발 및 생성형 ai 개발

     

    제공 기관명 아이젠사이언스
  • 항목
    내용
    데이터셋 제목
    단백질-리간드 결합 추가 데이터셋
    데이터셋 분류
    기타 > 기타 >
    파일 포맷
    기타
    수집 장소
    수집 기간
    2024-12-18 - 2024-12-18
    용량

  • 상품구성정보


    API

    -

    요청변수

    API 요청변수 구조표
    항목명(국문) 항목명(영문) 크기 항목구분 샘플데이터 설명
    요청변수 데이터가 없습니다.

    응답변수

    API 응답변수 구조표
    항목명(국문) 항목명(영문) 크기 항목구분 샘플데이터 설명
    응답변수 데이터가 없습니다.

    샘플코드


    -

유관사이트