HitAnno: Atlas-level cell type annotation based on scATAC-seq data via a hierarchical language model
이 논문은 대규모 scATAC-seq 데이터의 세포 유형 주석을 정확하게 수행하고 해석 가능한 계층적 어텐션 메커니즘을 통해 희귀 세포군까지 식별할 수 있는 새로운 계층적 언어 모델 'HitAnno'를 제안합니다.
1248 편의 논문
생물학 데이터의 거대한 바다를 해석하는 열쇠가 바로 생물정보학입니다. 이 분야는 방대한 유전체 정보를 컴퓨터 과학과 통계학으로 연결하여 생명 현상을 이해하는 새로운 방식을 제시합니다. 복잡한 DNA 서열이나 단백질 구조를 단순히 나열하는 것을 넘어,这些数据가 실제로 어떤 의미를 지니는지 찾아내는 과정이 핵심입니다.
Gist.Science 는 bioRxiv 에 매일 올라오는 최신 생물정보학 프리프린트들을 면밀히 검토합니다. 우리는 전문가가 작성한 기술적 요약을 제공함과 동시에, 비전문가도 쉽게 이해할 수 있는 평이한 설명을 함께 준비하여 연구의 핵심을 명확하게 전달합니다.
아래에는 bioRxiv 에서 선별된 최신 생물정보학 연구 논문들이 나열되어 있습니다.
이 논문은 대규모 scATAC-seq 데이터의 세포 유형 주석을 정확하게 수행하고 해석 가능한 계층적 어텐션 메커니즘을 통해 희귀 세포군까지 식별할 수 있는 새로운 계층적 언어 모델 'HitAnno'를 제안합니다.
이 논문은 AlphaFold 데이터베이스와 TED 도메인에서 구조적 유사성을 신속하고 생물학적으로 유의미하게 탐색할 수 있도록, 단백질 임베딩 기반의 빠른 전처리와 US-align 정제 과정을 결합한 'AlphaFind v2' 도구를 제안합니다.
이 논문은 항생제 내성 위기를 해결하기 위해 그래프 합성곱 네트워크와 Mamba 모델을 결합한 GCN-Mamba 프레임워크를 제안하여, MRSA 에 대한 새로운 시너지 항균 조합을 성공적으로 예측하고 실험적으로 검증했다고 요약할 수 있습니다.
이 논문은 단일세포 기초 모델 (scFM) 의 제로샷 임베딩이 기존 HVG 기반 방법보다 세포 역학 재구성에서 성능이 떨어지며, 특히 시간적 신호의 과도한 압축으로 인해 분기 구조가 왜곡되는 '시간적 압축' 병목 현상을 발견했다고 요약할 수 있습니다.
이 논문은 정렬된 다중 서열 정렬 (MSA) 에서 방향성 치환 비대칭성을 정량화하는 커널 회귀 기반 지표인 '변이 긴장도 (Tv)'를 제안하고, 이를 인간 글루타메이트 운반체에 적용하여 병원성 변이와의 상관관계를 규명하며, 이를 구현한 웹 애플리케이션을 공개했습니다.
본 연구는 AMBER Lipid21 힘장 하에서 다양한 물 모델과 POPC 및 DPPC 지질 이중층의 구조적·동역학적 특성을 비교 분석한 결과, 실험 데이터와 가장 잘 일치하는 SPC/E 물 모델이 수정 없이도 최적의 선택임을 규명했습니다.
이 논문은 짧은 DNA 패턴의 배치 검색을 위해 SIMD 레인을 활용한 새로운 알고리즘 Sassy2 를 제안하여 기존 도구 대비 2 배에서 45 배까지의 성능 향상을 달성했다고 요약할 수 있습니다.
이 논문은 분자 상호작용 맵의 탐색을 지원하기 위해 도메인 전문가의 피드백을 기반으로 'Llemy'라는 LLM 기반 에이전트 프레임워크를 사용자 주도적으로 개발하고 평가한 과정을 제시합니다.
이 논문은 36 만 건 이상의 옥수수 데이터를 활용해 유전체 및 환경 정보를 양방향으로 심층 통합하는 'GE-BiCross'라는 계층적 어텐션 프레임워크를 개발하여, 기존 모델보다 복잡한 유전체 - 환경 상호작용을 훨씬 정확하게 예측하고 기후 스마트 작물 육종을 지원함을 입증했습니다.
이 논문은 그래프 시얼 라플라시안의 스펙트럼 에너지를 새로운 미생물 다양성 지표로 제안하여, 게놈 구조와 분류학적 구성을 동시에 고려함으로써 염증성 장 질환 (IBD) 환자군과 대조군을 기존 지표보다 효과적으로 구분할 수 있음을 보여줍니다.