Phenotypic Bioactivity Prediction as Open-set Biological Assay Querying
이 논문은 화합물의 화학 구조, 세포 페인팅 이미지, 생물학적 어레이 설명을 통합한 멀티모달 파운데이션 모델 'OpenPheno'를 제안하여, 기존 폐쇄집합 패러다임의 한계를 극복하고 새로운 표적과 화합물에 대한 제로샷 및 퓨샷 방식으로 생체 활성을 예측하는 차세대 약물 발견의 새로운 패러다임을 제시합니다.
1250 편의 논문
생물학 데이터의 거대한 바다를 해석하는 열쇠가 바로 생물정보학입니다. 이 분야는 방대한 유전체 정보를 컴퓨터 과학과 통계학으로 연결하여 생명 현상을 이해하는 새로운 방식을 제시합니다. 복잡한 DNA 서열이나 단백질 구조를 단순히 나열하는 것을 넘어,这些数据가 실제로 어떤 의미를 지니는지 찾아내는 과정이 핵심입니다.
Gist.Science 는 bioRxiv 에 매일 올라오는 최신 생물정보학 프리프린트들을 면밀히 검토합니다. 우리는 전문가가 작성한 기술적 요약을 제공함과 동시에, 비전문가도 쉽게 이해할 수 있는 평이한 설명을 함께 준비하여 연구의 핵심을 명확하게 전달합니다.
아래에는 bioRxiv 에서 선별된 최신 생물정보학 연구 논문들이 나열되어 있습니다.
이 논문은 화합물의 화학 구조, 세포 페인팅 이미지, 생물학적 어레이 설명을 통합한 멀티모달 파운데이션 모델 'OpenPheno'를 제안하여, 기존 폐쇄집합 패러다임의 한계를 극복하고 새로운 표적과 화합물에 대한 제로샷 및 퓨샷 방식으로 생체 활성을 예측하는 차세대 약물 발견의 새로운 패러다임을 제시합니다.
이 논문은 다양한 도구와 입력 형식을 통합하여 자연 선택의 유전체적 지형을 재현 가능하고 확장 가능하게 분석할 수 있도록 설계된 Snakemake 워크플로우 'selscape'를 소개하고, 1000 게놈 프로젝트 데이터를 활용한 대규모 분석 사례를 통해 그 유효성을 입증합니다.
이 논문은 3' 및 5' 단일세포 RNA 시퀀싱 데이터 간의 프로토콜 의존적 편향을 체계적으로 분석하여, 전체 전사체보다는 소수의 편향된 유전자를 제거하는 것이 과감한 정규화나 배치 보정보다 교차 프로토콜 비교에 더 효과적이고 안전한 접근법임을 입증했습니다.
본 논문은 프로그래밍 지식이 없는 육종가도 복잡한 환경 설정 없이 즉시 사용할 수 있는 'iGS'라는 무코드 (Zero-Code) 그래픽 기반 유전체 선택 소프트웨어를 개발하여, 33 개의 최신 예측 모델을 통합하고 wheat2000 데이터셋을 통해 다양한 유전적 특성에 대한 모델 성능을 검증함으로써 농업 생산 현장의 유전체 선택 기술 보급을 가속화했음을 보고합니다.
이 논문은 고정된 길이의 k-mer 의 한계를 극복하고 게놈의 국소적 복잡성에 적응하는 가변 길이 단위인 '최소 고유 부분열 (MUSs)'을 제안하여, 선형 시간 알고리즘과 '아웃포스트' 개념을 통해 반복 서열을 정밀하게 구분하고 데이터 압축 효율을 극대화하는 차세대 시퀀스 분석 프레임워크를 제시합니다.
이 논문은 국소 대형 언어 모델과 결정론적 생물학적 추론을 결합한 신경-상징적 툴킷 'h5adify'를 통해 이질적인 AnnData 메타데이터를 자동화되고 재현 가능한 방식으로 통합하여 대규모 단일 세포 및 공간 전사체 데이터의 재사용성을 획기적으로 향상시킨다는 것을 보여줍니다.
이 논문은 네트워크 토폴로지와 바이러스의 분자 모방성을 통합한 머신러닝 기반 예측 도구 'vhPPIpred'와 엄격하게 선별된 벤치마크 데이터셋을 개발하여, 기존 방법들보다 우수한 성능으로 바이러스 - 인간 단백질 상호작용을 정확하게 예측하고 신약 개발 및 신종 바이러스 경보에 기여할 수 있음을 제시합니다.
scUnify 는 다양한 환경과 전처리 요구사항을 통합 관리하고 분산 추론을 통해 확장성을 확보함으로써 단일 세포 기반 모델의 제로샷 추론을 표준화하고 효율성을 극대화하는 통합 프레임워크입니다.
LLPSight 는 단백질 언어 모델 임베딩과 정교하게 큐레이션된 데이터를 활용하여 액체 - 액체 상분리 (LLPS) 를 유도하는 단백질을 기존 도구보다 높은 정확도로 예측하고 인간 게놈 전체에 적용 가능한 머신러닝 기반 예측 도구입니다.
이 논문은 메타러닝 프레임워크인 STUNT 를 이용한 미생물군 기반 질병 분류 평가에서, 극심한 데이터 부족 상황 (1 샷) 에서만 제한적인 이득을 보였을 뿐 추가 샘플이 있을 경우 오히려 성능이 저하되어 질병 분류의 성패는 주로 내재된 생물학적 신호의 강도에 달려 있음을 밝혔습니다.