Accurate detection of mosaic mutations at short tandem repeats from bulk sequencing data
이 논문은 시퀀싱 데이터의 기술적 한계를 극복하고 정밀한 모자이크 STR 변이 검출을 가능하게 하는 머신러닝 기반의 계산 프레임워크 'BulkMonSTR'을 제시하여 노화와 질병 연구에 기여합니다.
768 편의 논문
생물학 데이터의 거대한 바다를 해석하는 열쇠가 바로 생물정보학입니다. 이 분야는 방대한 유전체 정보를 컴퓨터 과학과 통계학으로 연결하여 생명 현상을 이해하는 새로운 방식을 제시합니다. 복잡한 DNA 서열이나 단백질 구조를 단순히 나열하는 것을 넘어,这些数据가 실제로 어떤 의미를 지니는지 찾아내는 과정이 핵심입니다.
Gist.Science 는 bioRxiv 에 매일 올라오는 최신 생물정보학 프리프린트들을 면밀히 검토합니다. 우리는 전문가가 작성한 기술적 요약을 제공함과 동시에, 비전문가도 쉽게 이해할 수 있는 평이한 설명을 함께 준비하여 연구의 핵심을 명확하게 전달합니다.
아래에는 bioRxiv 에서 선별된 최신 생물정보학 연구 논문들이 나열되어 있습니다.
이 논문은 시퀀싱 데이터의 기술적 한계를 극복하고 정밀한 모자이크 STR 변이 검출을 가능하게 하는 머신러닝 기반의 계산 프레임워크 'BulkMonSTR'을 제시하여 노화와 질병 연구에 기여합니다.
이 논문은 3 차원 구조 정보 없이 단백질 언어 모델을 미세 조정하여 단백질 간 결합 친화도를 예측하고, 실험적으로 검증된 인터페이스 잔기에 기반한 설명 가능성을 제공하며 소량의 데이터로도 높은 정확도를 달성하는 확장 가능한 프레임워크를 제시합니다.
IMMREP25 컨테스트는 기존 데이터가 없는 '미확인' 펩타이드에 대한 TCR:pMHC 결합 예측을 평가한 결과, 구조 모델링을 활용한 최상위 방법들이 무작위 추측을 유의미하게 능가하는 성과를 거두었음을 보여줍니다.
이 논문은 단일 세포 RNA 시퀀싱 데이터에서 생물학적 위상 불일치와 기술적 노이즈를 구분하여 circadian 위상을 추정하고 세포 간 동기화 정도를 정량화하는 확률론적 프레임워크인 scRitmo 를 제안하고, 이를 다양한 조직과 생물 종에서 검증했습니다.
이 연구는 통합된 계산 및 실험 전략을 통해 GLP-1R 수용체 아고니스트 후보물질을 발굴하고, 특히 펜타펩타이드인 DPDPE 가 GLP-1 과 유사한 효능을 보이며 차세대 펩타이드 치료제 개발을 위한 유망한 선도물질임을 규명했습니다.
이 연구는 인간 파노믹 (pangenome) 참조 게놈을 활용하면 기존 선형 참조 게놈 대비 특히 동아시아 계통의 개인에서 체성 돌연변이 검출 정확도가 크게 향상되어 인종에 따른 편차를 줄일 수 있음을 입증했습니다.
이 논문은 잔류 네트워크 (ResNets) 와 확장 컨볼루션을 단백질 언어 모델 (pLM) 임베딩과 결합하여 CAID3 벤치마크에서 최상위 성능을 보인 새로운 단백질 무질서 예측 도구인 'emb2dis'를 제안하고 있습니다.
이 논문은 임상 및 환경 샘플에서 파생된 원형 메타게놈 조립체 (cMAGs) 에 대한 병원성 인자와 항생제 내성 유전자의 분포 및 유전적 맥락을 종합적으로 시각화하여 One Health 차원의 감시를 지원하는 오픈소스 도구 'VicMAG'을 개발하고 그 유효성을 입증한 연구입니다.
이 논문은 Foldseek 와 ProstT5 모델의 구조 기반 검색을 활용하여 미생물 계통 전반에서 기존 도구보다 훨씬 높은 민감도로 가설 단백질을 기능 주석하는 새로운 Python 기반 소프트웨어인 Baktfold 를 소개하고 그 성능을 검증합니다.
이 논문은 사전 학습된 단백질 언어 모델 (ESM-2) 과 구조적 확률 디코더를 결합하여, 기존 HMMER 와 유사한 성능을 내면서도 느슨한 기준에서 더 높은 커버리지를 보이는 새로운 단백질 도메인 주석 도구인 PSALM 을 제안하고 그 성능을 검증합니다.