Quantifying Memorization and Privacy Risks in Genomic Language Models

이 논문은 유전체 언어 모델 (GLM) 의 프라이버시 위험을 정량화하기 위해 퍼플렉시티 기반 탐지, 카나리 시퀀스 추출, 멤버십 추론을 통합한 다중 벡터 평가 프레임워크를 제안하고, 반복 횟수와 모델 용량이 암기 위험에 미치는 영향을 실증적으로 분석했습니다.

Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman AydayWed, 11 Ma🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

이 논문은 DNA 기반 모델의 임베딩이 '임베딩-as-a-서비스 (EaaS)' 환경에서 공유될 때, 모델 역전 공격을 통해 민감한 원시 서열이 거의 완벽하게 복원될 수 있음을 보여주며, 특히 Evo 2 와 NTv2 모델이 취약하고 BPE 토큰화를 사용하는 DNABERT-2 가 상대적으로 더 안전함을 규명했습니다.

Sofiane Ouaari, Jules Kreuer, Nico PfeiferTue, 10 Ma🤖 cs.LG

Estimating Reproducibility in Genome-Wide Association Studies

이 논문은 유전체 전체 연관 분석 (GWAS) 의 재현성을 정량화하기 위해 1 차 연구에서 발견된 양성 결과가 재현 연구에서 어떻게 행동하는지를 평가하는 '재현율 (RR)'과 '거짓 비재현율 (FIR)'이라는 두 가지 확률적 척도를 제안하고, 그 추정 방법의 정확성과 예측 성능을 시뮬레이션 및 실제 실험을 통해 입증합니다.

Wei Jiang, Jing-Hao Xue, Weichuan YuThu, 12 Ma📊 stat

Controlling the joint local false discovery rate is more powerful than meta-analysis methods in joint analysis of summary statistics from multiple genome-wide association studies

이 논문은 여러 GWAS 의 요약 통계를 결합할 때 기존 메타분석 방법보다 더 높은 검정력을 가지며, 이질적인 데이터셋에서도 우수한 성능을 보이는 새로운 가설 검정 방법인 결합 국소 가짜 발견률 (Jlfdr) 제어를 제안하고 그 우수성을 입증합니다.

Wei Jiang, Weichuan YuThu, 12 Ma📊 stat

pHapCompass: Probabilistic Assembly and Uncertainty Quantification of Polyploid Haplotype Phase

이 논문은 배수체 게놈의 해독에 따른 불확실성을 명시적으로 모델링하고 정량화할 수 있는 확률적 해독 알고리즘 'pHapCompass'를 제안하고, 현실적인 배수체 시뮬레이션 워크플로우와 평가 기준을 마련하여 기존 방법들보다 우수한 성능을 입증했습니다.

Marjan Hosseini (School of Computing, University of Connecticut), Ella Veiner (School of Computing, University of Connecticut), Thomas Bergendahl (School of Computing, University of Connecticut), Tala Yasenpoor (School of Computing, University of Connecticut), Zane Smith (Department of Entomology and Plant Pathology, University of Tennessee), Margaret Staton (Department of Entomology and Plant Pathology, University of Tennessee), Derek Aguiar (School of Computing, University of Connecticut, Institute for Systems Genomics, University of Connecticut)Thu, 12 Ma🧬 q-bio

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

이 논문은 DNA 의 구조적 특징과 대칭성을 반영한 생물학적 지식을 통합하고 다중 스케일 어텐션 메커니즘 및 진화적 학습 전략을 적용하여 긴 서열의 DNA 모델링 효율성과 정확도를 획기적으로 개선한 새로운 기초 모델 'TrinityDNA'를 제안합니다.

Qirong Yang, Yucheng Guo, Zicheng Liu, Yujie Yang, Qijin Yin, Siyuan Li, Shaomin Ji, Linlin Chao, Xiaoming Zhang, Stan Z. LiMon, 09 Ma💻 cs

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

이 논문은 말초혈액 단핵구와 뇌척수액의 다양한 전사체 데이터를 통합 분석하는 기계학습 파이프라인을 개발하여 다발성 경화증 환자 식별에 성공하고, 설명 가능한 AI 기법을 통해 기존 분석법으로는 발견하기 어려운 새로운 병인 기전과 바이오마커를 규명했습니다.

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina SîrbuMon, 09 Ma🤖 cs.LG

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

이 논문은 긴 DNA 서열 길이 확장보다는 표적 유전자 근처의 다중 모달 후성유전 신호를 효과적으로 통합하여 배경 염색질 패턴의 혼란 효과를 줄이는 'Prism' 프레임워크를 제안함으로써, 짧은 서열로도 최첨단 수준의 유전자 발현 예측 성능을 달성할 수 있음을 보여줍니다.

Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing SuFri, 13 Ma🧬 q-bio