RNAElectra: An ELECTRA-Style RNA Foundation Model for RNA Regulatory Inference
이 논문은 기존 마스킹 언어 모델링 (MLM) 의 한계를 극복하고 모든 입력 위치에 대한 밀집된 지도 학습을 통해 RNA 구조, 상호작용 및 조절 특성을 포괄적으로 예측하고 해석 가능한 단일 백본을 제공하는 새로운 RNA 기반 모델인 RNAElectra 를 제안합니다.
1246 편의 논문
생물학 데이터의 거대한 바다를 해석하는 열쇠가 바로 생물정보학입니다. 이 분야는 방대한 유전체 정보를 컴퓨터 과학과 통계학으로 연결하여 생명 현상을 이해하는 새로운 방식을 제시합니다. 복잡한 DNA 서열이나 단백질 구조를 단순히 나열하는 것을 넘어,这些数据가 실제로 어떤 의미를 지니는지 찾아내는 과정이 핵심입니다.
Gist.Science 는 bioRxiv 에 매일 올라오는 최신 생물정보학 프리프린트들을 면밀히 검토합니다. 우리는 전문가가 작성한 기술적 요약을 제공함과 동시에, 비전문가도 쉽게 이해할 수 있는 평이한 설명을 함께 준비하여 연구의 핵심을 명확하게 전달합니다.
아래에는 bioRxiv 에서 선별된 최신 생물정보학 연구 논문들이 나열되어 있습니다.
이 논문은 기존 마스킹 언어 모델링 (MLM) 의 한계를 극복하고 모든 입력 위치에 대한 밀집된 지도 학습을 통해 RNA 구조, 상호작용 및 조절 특성을 포괄적으로 예측하고 해석 가능한 단일 백본을 제공하는 새로운 RNA 기반 모델인 RNAElectra 를 제안합니다.
이 논문은 시퀀싱 데이터의 구조적 특성을 활용하여 FASTA, FASTQ 등 다양한 오믹스 파일 형식에 대해 기존 전용 압축기보다 압축률과 속도를 동시에 개선한 'NYX'라는 포맷 인식 학습 기반 압축 시스템을 제안합니다.
이 논문은 가변 차수 데 브로이 그래프 (voDBG) 에 대한 최초의 컨티그 정의를 제시하고, 균일 샘플링 가정 하에서 특정 주파수 범위의 노드가 유전체 서열을 높은 확률로 나타낸다는 것을 증명하며, 이를 효율적으로 열거하는 알고리즘을 개발하여 고정 차수 그래프보다 연속성을 크게 향상시키고 전체 어셈블러보다 경량화된 방법을 제안합니다.
이 논문은 비리보솜 펩타이드 (NRP) 생합성 유전자 클러스터를 화학 구조와 정확하게 연결하기 위해 확률론적 프레임워크인 Nerpa 2 를 개발하고 기존 방법보다 우수한 성능을 입증한 내용을 담고 있습니다.
ATOMICA 는 단백질, 작은 분자, 금속 이온, 지질, 핵산 등 5 가지 모달리티의 분자 간 상호작용을 학습하는 기하학적 딥러닝 모델로, 다양한 분자 인터페이스의 다중 스케일 표현을 학습하여 암흑 프로테옴의 잠재적 리간드 예측 및 실험적 검증을 성공적으로 수행했습니다.
이 논문은 알파폴드와 ESM 의 예측 구조 데이터를 통합하여 8 억 2 천만 개의 단백질 구조를 분석함으로써 12 개의 새로운 도메인 접힘과 1 만 9 천 개 이상의 새로운 도메인 조합을 발견하여 메타게놈 데이터가 단백질 구조 우주의 미탐사 영역을 밝히는 데 핵심적임을 입증했습니다.
이 연구는 하위 인트론의 대체 폴리애데닐화 (alternative polyadenylation) 를 통해 NMD(무의미 매개 mRNA 분해) 를 회피하는 새로운 기전이 VRK3, NFX1 등 여러 유전자에서 광범위하게 존재하며, 이를 차단하면 유전자 발현이 감소함을 규명했습니다.
메타엑스트랙트 (MetaXtract) 는 Thermo Fisher 원시 파일에서 메타데이터를 추출하여 구조화된 표 형식으로 제공함으로써 데이터의 FAIR 원칙 준수, 워크플로우 최적화, 실시간 품질 관리 및 기계 학습 적용을 가능하게 하는 경량 오픈소스 도구입니다.
이 연구는 ESM-2 와 Transformer 기반의 이중 엔진 프레임워크 'XAMP'를 개발하여 심해 미생물군집에서 항생제 내성 균주를 효과적으로 억제하는 새로운 항균 펩타이드를 발굴하고 실험적으로 검증함으로써 항생제 내성 위기에 대응할 수 있는 강력한 컴퓨팅 - 실험 통합 플랫폼을 제시했습니다.
이 논문은 scRNA-seq 와 공간 프로테오믹스 데이터를 세포 바코드 페어링이나 직접적인 특징 대응 없이 통합하여 조직의 공간적 맥락이 전사 프로그램을 어떻게 형성하는지 규명하는 생성 기반 프레임워크인 ARCADIA 를 제안합니다.