데이터셋 상세보기
헬스케어
개방
기관 승인
기타
아이젠사이언스
단백질-리간드 추가 데이터셋-
기본정보
등록일자 2024-12-18 16:42:55.645368
조회수 75
-
관련 키워드
결합 | 단백질 | 리간드 | 생성 | 신약개발
-
소개
신약 개발에서 가장 큰 과제 중 하나인 단백질-리간드 결합 친화도 예측을 위해 만들어진 데이터셋
구축 목적
데이터 특징
데이터 소개
- 데이터 소개: CrossDocked2020 데이터셋은 신약 개발에서 가장 큰 과제 중 하나인 단백질-리간드 결합 친화도 예측을 위해 만들어졌습니다. 이 데이터셋은 Protein Data Bank에서 추출한 유사한 결합 포켓들에 대해 도킹된 리간드 포즈를 포함하고 있습니다.
- 데이터 크기: 225000 -> 정제 후 약 150000개의 리간드-데이터 바인딩 포즈 셋
- 데이터 구성: lmdb 데이터셋, test 데이터 모음, data split index
- 각 단백질-리간드 쌍의 구성:
- 단백질 구조 파일: .pdb 확장자
- 리간드 구조 파일: .sdf.gz 형식 (압축된 구조 데이터 파일)
- RMSD (Root Mean Square Deviation) 값: 리간드의 도킹 품질을 나타내는 지표
- 데이터 정제 과정:
- 단백질-리간드 쌍에 대한 정보가 담긴 types 파일을 읽습니다
- RMSD 임계값을 기준으로 쌍들을 필터링합니다
- 유효한 각 쌍에 대해:
- 단백질 PDB 파일을 대상 디렉토리로 복사
- SDF 파일에서 특정 리간드 구조를 추출하여 저장
- 압축된(gzip) 및 일반 SDF 파일 모두 처리 가능
- lmdb 형식으로 저장
-
구축목적
- 단백질 특이적 약물 생성 인공지능 모델 개발을 위해 추가로 데집
데이터 활용사례
- 약물개발 및 생성형 ai 개발
제공 기관명 아이젠사이언스 -
항목내용데이터셋 제목단백질-리간드 결합 추가 데이터셋데이터셋 분류기타 > 기타 >파일 포맷기타수집 장소수집 기간2024-12-18 - 2024-12-18용량
-
상품구성정보
API-
요청변수
API 요청변수 구조표 항목명(국문) 항목명(영문) 크기 항목구분 샘플데이터 설명 요청변수 데이터가 없습니다. 응답변수
API 응답변수 구조표 항목명(국문) 항목명(영문) 크기 항목구분 샘플데이터 설명 응답변수 데이터가 없습니다. 샘플코드
-