How Not to be Seen: Predicting Unseen Enzyme Functions using Contrastive Learning
이 논문은 훈련 데이터에 없는 4 번째 EC 번호를 가진 효소 서열도 정확한 기능적 맥락에 배치할 수 있도록 돕는 대비 학습 기반의 'EnzPlacer' 알고리즘을 제안합니다.
770 편의 논문
생물학 데이터의 거대한 바다를 해석하는 열쇠가 바로 생물정보학입니다. 이 분야는 방대한 유전체 정보를 컴퓨터 과학과 통계학으로 연결하여 생명 현상을 이해하는 새로운 방식을 제시합니다. 복잡한 DNA 서열이나 단백질 구조를 단순히 나열하는 것을 넘어,这些数据가 실제로 어떤 의미를 지니는지 찾아내는 과정이 핵심입니다.
Gist.Science 는 bioRxiv 에 매일 올라오는 최신 생물정보학 프리프린트들을 면밀히 검토합니다. 우리는 전문가가 작성한 기술적 요약을 제공함과 동시에, 비전문가도 쉽게 이해할 수 있는 평이한 설명을 함께 준비하여 연구의 핵심을 명확하게 전달합니다.
아래에는 bioRxiv 에서 선별된 최신 생물정보학 연구 논문들이 나열되어 있습니다.
이 논문은 훈련 데이터에 없는 4 번째 EC 번호를 가진 효소 서열도 정확한 기능적 맥락에 배치할 수 있도록 돕는 대비 학습 기반의 'EnzPlacer' 알고리즘을 제안합니다.
BioGraphX-RNA 는 단백질용 BioGraphX 를 기반으로 RNA 의 서열과 구조적 상호작용을 생리화학적 그래프 인코딩으로 통합하고 RiNALMo 임베딩과 결합하여, 적은 파라미터로 높은 정확도와 해석 가능성을 갖춘 RNA 세포 내 위치 예측 모델을 개발하고 진화적으로 보존된 생리화학적 신호를 규명했습니다.
이 논문은 저신호대잡음비 환경에서 기존 교차상관 기반 방법보다 우수한 성능을 보이는 베이지안 프레임워크 (최소 평균 제곱 오차 추정기) 를 제안하여, 3D 분자 구조 재구성 정확도를 높이고 구조적 이질성 분석의 신뢰성을 획기적으로 개선함을 입증합니다.
이 논문은 드롭렛 기반 단일 세포 RNA 시퀀싱 데이터의 효율적인 정량을 위해 바코드 오류 수정, 리드 - 유전자 매핑 및 UMI 해결을 통합한 새로운 알고리즘 O_SCPLOWARCANEC_SCPLOW 를 제안하며, 기존 방법들보다 빠른 속도로 유사한 정확도를 달성함을 보여줍니다.
이 논문은 교차 임베딩 어텐션을 통해 해석 가능한 생물물리학적 사전 지식을 주입하는 범용 프레임워크인 ProtBFF 를 제안하여, 단순한 기계적 원리를 사전 학습된 표현에 통합함으로써 동질성 기반 평가에서 기존 최첨단 모델을 능가하는 신뢰할 수 있는 단백질 G 예측을 가능하게 한다고 요약할 수 있습니다.
이 논문은 12 개 종과 8 가지 질량 분석기에서 획득한 1,800 만 개 이상의 스펙트럼을 포함한 최초의 포괄적인 상향식 (top-down) 질량 스펙트럼 저장소인 TopRepo 를 소개하며, 이를 통해 대규모 데이터셋 분석 및 딥러닝 기반 스펙트럼 예측 모델 훈련을 가능하게 하고 프로테오폼 식별 정확도를 획기적으로 향상시킨다고 설명합니다.
이 논문은 단일 세포 유전체 정보를 지식 그래프에 통합하여 자가면역 질환을 포함한 모든 질병에 대한 약물 재창출 예측 성능과 생물학적 해석 가능성을 향상시킨 'CellAwareGNN' 모델을 제안하고 그 우수성을 입증합니다.
메타트레이서 (MetaTracer) 는 메타전사체 데이터의 복잡한 세균 군집을 분석하여 단일 패스로 시퀀스 리드를 분류군과 발현 유전자에 모두 할당함으로써 종 수준의 분해능과 높은 정확도를 제공하는 핵산 정렬 기반 프레임워크입니다.
이 논문은 저선량 방사선 노출 하에서 RNA 시퀀싱 데이터를 세포 페인팅 핵 형태 특징과 연결하는 해석 가능한 시계열 역모델링 프레임워크를 제시하여, 시간에 따른 전사체 변화가 핵 형태학적 변화에 미치는 영향을 규명합니다.
'셀렉츠 (Cellects)'는 다양한 생물학적 시스템의 2D 이미지 및 시계열 데이터로부터 세포의 성장, 운동 및 형태 변화를 자동 정량화할 수 있는 사용자 친화적이고 오픈소스 기반의 소프트웨어입니다.