Predicting peptide aggregation with protein language model embeddings
이 논문은 사전 훈련된 단백질 언어 모델의 임베딩을 활용한 전이 학습 모델 PALM 을 통해 소규모 데이터셋에서도 펩타이드 응집을 효과적으로 예측할 수 있음을 보였으나, 단일 돌연변이 영향 예측과 같은 복잡한 과제는 더 많은 실험 데이터가 필요함을 강조합니다.
1260 편의 논문
생물학 데이터의 거대한 바다를 해석하는 열쇠가 바로 생물정보학입니다. 이 분야는 방대한 유전체 정보를 컴퓨터 과학과 통계학으로 연결하여 생명 현상을 이해하는 새로운 방식을 제시합니다. 복잡한 DNA 서열이나 단백질 구조를 단순히 나열하는 것을 넘어,这些数据가 실제로 어떤 의미를 지니는지 찾아내는 과정이 핵심입니다.
Gist.Science 는 bioRxiv 에 매일 올라오는 최신 생물정보학 프리프린트들을 면밀히 검토합니다. 우리는 전문가가 작성한 기술적 요약을 제공함과 동시에, 비전문가도 쉽게 이해할 수 있는 평이한 설명을 함께 준비하여 연구의 핵심을 명확하게 전달합니다.
아래에는 bioRxiv 에서 선별된 최신 생물정보학 연구 논문들이 나열되어 있습니다.
이 논문은 사전 훈련된 단백질 언어 모델의 임베딩을 활용한 전이 학습 모델 PALM 을 통해 소규모 데이터셋에서도 펩타이드 응집을 효과적으로 예측할 수 있음을 보였으나, 단일 돌연변이 영향 예측과 같은 복잡한 과제는 더 많은 실험 데이터가 필요함을 강조합니다.
이 논문은 그래프 토폴로지를 고려한 네트워크 흐름 형식을 도입하여 선형 참조 게놈 기반의 한계를 극복하고, 그래프에 대한 시퀀스 정렬 데이터를 활용한 보다 정확한 서열 카피수 변이 (CN) 예측 방법인 Floco 를 제안합니다.
이 논문은 기존 정렬 기반 방식의 계산적 한계를 극복하고 대규모 바이러스 시퀀싱 데이터를 초고속으로 처리하여 변이를 정밀하게 탐지할 수 있는 새로운 정렬 없는 프레임워크 'bronko'를 개발하고 그 성능과 유효성을 입증했습니다.
이 논문은 다양한 암종과 정상 조직의 후성유전적 유사성 및 이질성으로 인한 한계를 극복하기 위해 게놈 전체 메틸화 데이터와 전사체 정보를 통합한 새로운 발견 플랫폼을 개발하여, 대장암, 간세포암, 폐암 등 특정 암종에 대한 고감도 DNA 메틸화 바이오마커를 체계적으로 식별하고 임상적으로 접근 가능한 PCR 기반 검출법으로 검증했다는 내용을 담고 있습니다.
이 논문은 모델 생물과 비모델 진핵생물 모두에서 미토콘드리아 단백질체 재구성의 정확도를 높이기 위해 표적 신호 예측, 동源性 검색, 계통 분석 등 다양한 증거를 통합한 새로운 스코어링 파이프라인 'CoMR'을 개발하고 그 유효성을 입증한 연구입니다.
이 논문은 재조합 바코딩 실험과 이를 고려한 숨은 마르코프 모델 기반의 DemuxHMM 알고리즘을 결합하여 대규모 단일 세포 배아 시계열 데이터의 개인별 분해능을 획기적으로 향상시키는 통합 프레임워크를 제안합니다.
이 논문은 노이즈와 이상치에 강인한 고품질 공간 전사체 데이터를 생성하기 위해 베타 발산 기반 오토인코더와 변분 추론을 활용한 'RSTG' 모델을 제안하고, 다양한 실험 환경에서 기존 방법보다 우수한 성능과 안정성을 입증합니다.
본 논문은 제한된 데이터와 고정된 길이의 제약 문제를 해결하고 siRNA 효능 예측의 정확도를 획기적으로 향상시키기 위해, siRNA-mRNA 복합체를 그래프로 모델링한 새로운 딥러닝 아키텍처 'OligoGraph'를 제안하고 기존 최첨단 모델들을 능가하는 성능을 입증했습니다.
이 연구는 다중 오믹스 분석과 분자 동역학 시뮬레이션을 통해 상부 위장관암에서 무질서 영역을 가진 단백질 (TOPBP1, CHERP 등) 이 형성하는 생체 분자 응집체가 전사 재프로그래밍을 주도하며, 이것이 종양 세포의 생존에 필수적인 공통 취약점이 됨을 규명했습니다.
이 논문은 기능적 주석을 기반으로 다양한 유전자 발현 유사도 측정치를 통합 가중치로 결합한 '통합 유사도 점수 (ISS)'를 개발하여 기존 방법보다 우수한 유전자 쌍 식별 성능과 미분류 효모 유전자의 기능 예측 능력을 입증했습니다.