Quantifying Memorization and Privacy Risks in Genomic Language Models
이 논문은 유전체 언어 모델 (GLM) 의 프라이버시 위험을 정량화하기 위해 퍼플렉시티 기반 탐지, 카나리 시퀀스 추출, 멤버십 추론을 통합한 다중 벡터 평가 프레임워크를 제안하고, 반복 횟수와 모델 용량이 암기 위험에 미치는 영향을 실증적으로 분석했습니다.
29 편의 논문
이 논문은 유전체 언어 모델 (GLM) 의 프라이버시 위험을 정량화하기 위해 퍼플렉시티 기반 탐지, 카나리 시퀀스 추출, 멤버십 추론을 통합한 다중 벡터 평가 프레임워크를 제안하고, 반복 횟수와 모델 용량이 암기 위험에 미치는 영향을 실증적으로 분석했습니다.
이 논문은 생물학적 및 임상적 궤적에서 특정 시점과 변수에 대한 정밀한 제어가 가능한 새로운 시계열 편집 모델인 CLEF 를 제안하여, 기존 방법론보다 편집 정확도와 반사실적 추론 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 DNA 기반 모델의 임베딩이 '임베딩-as-a-서비스 (EaaS)' 환경에서 공유될 때, 모델 역전 공격을 통해 민감한 원시 서열이 거의 완벽하게 복원될 수 있음을 보여주며, 특히 Evo 2 와 NTv2 모델이 취약하고 BPE 토큰화를 사용하는 DNABERT-2 가 상대적으로 더 안전함을 규명했습니다.
이 논문은 이질적인 RNA 시퀀싱 데이터셋 간의 전이 학습을 위해 적대적 도메인 적응을 기반으로 한 딥러닝 프레임워크를 제안하여, 데이터가 부족한 상황에서도 암 및 조직 유형 분류의 정확도를 향상시킨다는 점을 보여줍니다.
이 논문은 유전체 전체 연관 분석 (GWAS) 의 재현성을 정량화하기 위해 1 차 연구에서 발견된 양성 결과가 재현 연구에서 어떻게 행동하는지를 평가하는 '재현율 (RR)'과 '거짓 비재현율 (FIR)'이라는 두 가지 확률적 척도를 제안하고, 그 추정 방법의 정확성과 예측 성능을 시뮬레이션 및 실제 실험을 통해 입증합니다.
이 논문은 여러 GWAS 의 요약 통계를 결합할 때 기존 메타분석 방법보다 더 높은 검정력을 가지며, 이질적인 데이터셋에서도 우수한 성능을 보이는 새로운 가설 검정 방법인 결합 국소 가짜 발견률 (Jlfdr) 제어를 제안하고 그 우수성을 입증합니다.
이 논문은 배수체 게놈의 해독에 따른 불확실성을 명시적으로 모델링하고 정량화할 수 있는 확률적 해독 알고리즘 'pHapCompass'를 제안하고, 현실적인 배수체 시뮬레이션 워크플로우와 평가 기준을 마련하여 기존 방법들보다 우수한 성능을 입증했습니다.
이 논문은 대규모 언어 모델 에이전트를 활용하여 비정형화된 생물의학 문헌에서 오믹스 데이터를 자동으로 추출, 재분석 및 통합함으로써 정적인 문헌을 실행 가능하고 대규모로 재사용 가능한 자원으로 변환하는 새로운 프레임워크를 제시합니다.
이 논문은 단일세포 기초 모델인 scGPT 의 내부 메커니즘을 해석하여 혈액 세포 발달 알고리즘을 추출하는 새로운 방법을 제시하고, 기존 모델보다 높은 성능과 효율성을 입증했습니다.
SNPgen 은 표현형 정보를 조건으로 한 잠재 확산 모델을 통해 개인 식별 정보가 완전히 제거된 채 질병 예측 성능을 유지하는 합성 유전자형 데이터를 생성하는 새로운 프레임워크를 제안합니다.
이 논문은 U-Net 을 변형한 파라미터 효율적인 Diffusion Transformer 를 도입하여 200bp 세포 유형별 조절 DNA 서열을 생성하고, Enformer 기반 보상 모델을 활용한 DDPO 미세조정을 통해 예측된 조절 활성을 38 배 향상시켰음을 보고합니다.
이 논문은 DNA 의 구조적 특징과 대칭성을 반영한 생물학적 지식을 통합하고 다중 스케일 어텐션 메커니즘 및 진화적 학습 전략을 적용하여 긴 서열의 DNA 모델링 효율성과 정확도를 획기적으로 개선한 새로운 기초 모델 'TrinityDNA'를 제안합니다.
이 논문은 구조화된 표현형 기반 프롬프트와 지식 기반 LLM 아키텍처를 활용하여 희귀질환 유전자 우선순위 결정의 정확도와 임상적 설명 가능성을 크게 향상시킨 LA-MARRVEL 프레임워크를 제안합니다.
이 논문은 siRNA 효능 예측 모델의 해석 가능성을 검증하기 위해 가중치 기반의 민감도 테스트 프로토콜과 생물학적 사전 지식을 반영한 정규화 기법 (BioPrior) 을 제안하며, 설명 기반 치료제 설계 전 해석 방법의 타당성을 반드시 검증해야 함을 강조합니다.
이 논문은 AI 기반 대규모 가설 검증을 통해 생물학적 기초 모델이 학습한 표현 공간이 단순한 훈련 인공물이 아닌, 면역 조직에서 특히 두드러지는 유의미한 위상 및 기하학적 구조를 공유한다는 것을 141 개의 가설을 통해 입증했습니다.
이 논문은 말초혈액 단핵구와 뇌척수액의 다양한 전사체 데이터를 통합 분석하는 기계학습 파이프라인을 개발하여 다발성 경화증 환자 식별에 성공하고, 설명 가능한 AI 기법을 통해 기존 분석법으로는 발견하기 어려운 새로운 병인 기전과 바이오마커를 규명했습니다.
이 논문은 긴 DNA 서열 길이 확장보다는 표적 유전자 근처의 다중 모달 후성유전 신호를 효과적으로 통합하여 배경 염색질 패턴의 혼란 효과를 줄이는 'Prism' 프레임워크를 제안함으로써, 짧은 서열로도 최첨단 수준의 유전자 발현 예측 성능을 달성할 수 있음을 보여줍니다.
이 논문은 진화 기반 모델 (Evo-1-8k-base) 의 임베딩에서 안정성 경계 근처의 레이어를 선택하고, 국소적 항생제 내성 신호를 보존하기 위해 MiniRocket 을 적용함으로써 종 간 항생제 내성 예측의 일반화 성능을 획기적으로 개선하는 방법을 제시합니다.
이 논문은 단일 세포 유전자 발현 생성 모델의 평가 기준 부재 문제를 해결하기 위해, 일관된 메트릭 구현과 생물학적 기반 평가를 가능하게 하는 오픈소스 파이썬 프레임워크인 GGE 를 제안합니다.
이 논문은 scGPT 임베딩과 BioBERT 기반 의미 검색, LLM 해석을 통합하여 단일 세포 RNA 시퀀싱 데이터를 직접 분석하고 생물학적 가설을 생성하는 해석 가능한 하이브리드 생성 AI 에이전트 'ELISA'를 제안합니다.