q-bio.GN 편의 논문 | Gist.Science

Quantifying Memorization and Privacy Risks in Genomic Language Models

이 논문은 유전체 언어 모델 (GLM) 의 프라이버시 위험을 정량화하기 위해 퍼플렉시티 기반 탐지, 카나리 시퀀스 추출, 멤버십 추론을 통합한 다중 벡터 평가 프레임워크를 제안하고, 반복 횟수와 모델 용량이 암기 위험에 미치는 영향을 실증적으로 분석했습니다.

Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman AydayWed, 11 Ma🤖 cs.LG

Controllable Sequence Editing for Biological and Clinical Trajectories

이 논문은 생물학적 및 임상적 궤적에서 특정 시점과 변수에 대한 정밀한 제어가 가능한 새로운 시계열 편집 모델인 CLEF 를 제안하여, 기존 방법론보다 편집 정확도와 반사실적 추론 성능을 크게 향상시켰음을 보여줍니다.

Michelle M. Li, Kevin Li, Yasha Ektefaie, Ying Jin, Yepeng Huang, Shvat Messica, Tianxi Cai, Marinka ZitnikTue, 10 Ma🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

이 논문은 DNA 기반 모델의 임베딩이 '임베딩-as-a-서비스 (EaaS)' 환경에서 공유될 때, 모델 역전 공격을 통해 민감한 원시 서열이 거의 완벽하게 복원될 수 있음을 보여주며, 특히 Evo 2 와 NTv2 모델이 취약하고 BPE 토큰화를 사용하는 DNABERT-2 가 상대적으로 더 안전함을 규명했습니다.

Sofiane Ouaari, Jules Kreuer, Nico PfeiferTue, 10 Ma🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

이 논문은 이질적인 RNA 시퀀싱 데이터셋 간의 전이 학습을 위해 적대적 도메인 적응을 기반으로 한 딥러닝 프레임워크를 제안하여, 데이터가 부족한 상황에서도 암 및 조직 유형 분류의 정확도를 향상시킨다는 점을 보여줍니다.

Kevin Dradjat, Massinissa Hamidi, Blaise HanczarTue, 10 Ma🤖 cs.LG

Estimating Reproducibility in Genome-Wide Association Studies

이 논문은 유전체 전체 연관 분석 (GWAS) 의 재현성을 정량화하기 위해 1 차 연구에서 발견된 양성 결과가 재현 연구에서 어떻게 행동하는지를 평가하는 '재현율 (RR)'과 '거짓 비재현율 (FIR)'이라는 두 가지 확률적 척도를 제안하고, 그 추정 방법의 정확성과 예측 성능을 시뮬레이션 및 실제 실험을 통해 입증합니다.

Wei Jiang, Jing-Hao Xue, Weichuan YuThu, 12 Ma📊 stat

Controlling the joint local false discovery rate is more powerful than meta-analysis methods in joint analysis of summary statistics from multiple genome-wide association studies

이 논문은 여러 GWAS 의 요약 통계를 결합할 때 기존 메타분석 방법보다 더 높은 검정력을 가지며, 이질적인 데이터셋에서도 우수한 성능을 보이는 새로운 가설 검정 방법인 결합 국소 가짜 발견률 (Jlfdr) 제어를 제안하고 그 우수성을 입증합니다.

Wei Jiang, Weichuan YuThu, 12 Ma📊 stat

pHapCompass: Probabilistic Assembly and Uncertainty Quantification of Polyploid Haplotype Phase

이 논문은 배수체 게놈의 해독에 따른 불확실성을 명시적으로 모델링하고 정량화할 수 있는 확률적 해독 알고리즘 'pHapCompass'를 제안하고, 현실적인 배수체 시뮬레이션 워크플로우와 평가 기준을 마련하여 기존 방법들보다 우수한 성능을 입증했습니다.

Marjan Hosseini (School of Computing, University of Connecticut), Ella Veiner (School of Computing, University of Connecticut), Thomas Bergendahl (School of Computing, University of Connecticut), Tala Yasenpoor (School of Computing, University of Connecticut), Zane Smith (Department of Entomology and Plant Pathology, University of Tennessee), Margaret Staton (Department of Entomology and Plant Pathology, University of Tennessee), Derek Aguiar (School of Computing, University of Connecticut, Institute for Systems Genomics, University of Connecticut)Thu, 12 Ma🧬 q-bio

Omics Data Discovery Agents

이 논문은 대규모 언어 모델 에이전트를 활용하여 비정형화된 생물의학 문헌에서 오믹스 데이터를 자동으로 추출, 재분석 및 통합함으로써 정적인 문헌을 실행 가능하고 대규모로 재사용 가능한 자원으로 변환하는 새로운 프레임워크를 제시합니다.

Alexandre Hutton, Jesse G. MeyerThu, 12 Ma🧬 q-bio

Discovery of a Hematopoietic Manifold in scGPT Yields a Method for Extracting Performant Algorithms from Biological Foundation Model Internals

이 논문은 단일세포 기초 모델인 scGPT 의 내부 메커니즘을 해석하여 혈액 세포 발달 알고리즘을 추출하는 새로운 방법을 제시하고, 기존 모델보다 높은 성능과 효율성을 입증했습니다.

Ihor KendiukhovThu, 12 Ma🧬 q-bio

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

SNPgen 은 표현형 정보를 조건으로 한 잠재 확산 모델을 통해 개인 식별 정보가 완전히 제거된 채 질병 예측 성능을 유지하는 합성 유전자형 데이터를 생성하는 새로운 프레임워크를 제안합니다.

Andrea Lampis, Michela Carlotta Massi, Nicola Pirastu, Francesca Ieva, Matteo Matteucci, Emanuele Di AngelantonioThu, 12 Ma🧬 q-bio

Continuous Diffusion Transformers for Designing Synthetic Regulatory Elements

이 논문은 U-Net 을 변형한 파라미터 효율적인 Diffusion Transformer 를 도입하여 200bp 세포 유형별 조절 DNA 서열을 생성하고, Enformer 기반 보상 모델을 활용한 DDPO 미세조정을 통해 예측된 조절 활성을 38 배 향상시켰음을 보고합니다.

Jonathan Liu, Kia GhodsThu, 12 Ma🧬 q-bio

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

이 논문은 DNA 의 구조적 특징과 대칭성을 반영한 생물학적 지식을 통합하고 다중 스케일 어텐션 메커니즘 및 진화적 학습 전략을 적용하여 긴 서열의 DNA 모델링 효율성과 정확도를 획기적으로 개선한 새로운 기초 모델 'TrinityDNA'를 제안합니다.

Qirong Yang, Yucheng Guo, Zicheng Liu, Yujie Yang, Qijin Yin, Siyuan Li, Shaomin Ji, Linlin Chao, Xiaoming Zhang, Stan Z. LiMon, 09 Ma💻 cs

LA-MARRVEL: A Knowledge-Grounded, Language-Aware LLM Framework for Clinically Robust Rare Disease Gene Prioritization

이 논문은 구조화된 표현형 기반 프롬프트와 지식 기반 LLM 아키텍처를 활용하여 희귀질환 유전자 우선순위 결정의 정확도와 임상적 설명 가능성을 크게 향상시킨 LA-MARRVEL 프레임워크를 제안합니다.

Jaeyeon Lee, Lin Yao, Hyun-Hwan Jeong, Zhandong LiuMon, 09 Ma🤖 cs.AI

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

이 논문은 siRNA 효능 예측 모델의 해석 가능성을 검증하기 위해 가중치 기반의 민감도 테스트 프로토콜과 생물학적 사전 지식을 반영한 정규화 기법 (BioPrior) 을 제안하며, 설명 기반 치료제 설계 전 해석 방법의 타당성을 반드시 검증해야 함을 강조합니다.

Zahra Khodagholi, Niloofar YousefiMon, 09 Ma🤖 cs.LG

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

이 논문은 AI 기반 대규모 가설 검증을 통해 생물학적 기초 모델이 학습한 표현 공간이 단순한 훈련 인공물이 아닌, 면역 조직에서 특히 두드러지는 유의미한 위상 및 기하학적 구조를 공유한다는 것을 141 개의 가설을 통해 입증했습니다.

Ihor KendiukhovMon, 09 Ma🤖 cs.LG

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

이 논문은 말초혈액 단핵구와 뇌척수액의 다양한 전사체 데이터를 통합 분석하는 기계학습 파이프라인을 개발하여 다발성 경화증 환자 식별에 성공하고, 설명 가능한 AI 기법을 통해 기존 분석법으로는 발견하기 어려운 새로운 병인 기전과 바이오마커를 규명했습니다.

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina SîrbuMon, 09 Ma🤖 cs.LG

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

이 논문은 긴 DNA 서열 길이 확장보다는 표적 유전자 근처의 다중 모달 후성유전 신호를 효과적으로 통합하여 배경 염색질 패턴의 혼란 효과를 줄이는 'Prism' 프레임워크를 제안함으로써, 짧은 서열로도 최첨단 수준의 유전자 발현 예측 성능을 달성할 수 있음을 보여줍니다.

Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing SuFri, 13 Ma🧬 q-bio

q-bio.GN