Schrödinger Bridge Mamba for One-Step Speech Enhancement
이 논문은 슈뢰딩거 브리지 훈련 패러다임과 Mamba 아키텍처를 결합한 '슈뢰딩거 브리지 Mamba(SBM)' 모델을 제안하여, 단 한 번의 추론 단계로 실시간 스트리밍이 가능한 고품질의 음성 향상 (잡음 제거 및 반향 제거) 을 달성함을 보여줍니다.
10165 편의 논문
이 논문은 슈뢰딩거 브리지 훈련 패러다임과 Mamba 아키텍처를 결합한 '슈뢰딩거 브리지 Mamba(SBM)' 모델을 제안하여, 단 한 번의 추론 단계로 실시간 스트리밍이 가능한 고품질의 음성 향상 (잡음 제거 및 반향 제거) 을 달성함을 보여줍니다.
이 논문은 기존 방어 기법들이 다중 에이전트 시스템의 제어 흐름 하이재킹 공격을 효과적으로 막지 못함을 지적하고, 제어 흐름 무결성과 최소 권한 원칙에 기반하여 허용된 제어 흐름 그래프를 생성하고 강제하는 새로운 방어 시스템인 'ControlValve'를 제안합니다.
이 논문은 오버파라미터화된 ReLU 신경망의 일반화 성능이 데이터 기하학에 의해 결정되며, 데이터가 ReLU 활성화 임계값에 대해 쉽게 분열될수록 과적합이 발생하고 반대로 분열이 어려울 경우 공유 패턴을 포착하여 일반화가 잘 된다는 통찰을 제공합니다.
이 논문은 선형 최소제곱법을 기반으로 가장 영향력 있는 데이터 집합의 극단적 영향을 통계적으로 검정할 수 있는 엄밀한 프레임워크를 제시하여, 기존 경험적 규칙을 대체하고 경제학·생물학·머신러닝 분야에서 논쟁적이던 결과를 해결합니다.
이 논문은 대규모 언어 모델의 과학적 지식과 화학 기반 진화 규칙, 그리고 메모리 기반 정제 기법을 결합하여 다중 목적을 충족하는 새로운 소재 후보를 효율적으로 탐색하는 통합 프레임워크인 LLEMA 를 제안하고, 이를 통해 기존 방법론 대비 우수한 성능을 입증했습니다.
이 논문은 네트워크와 그라디언트에 의존하는 문제별 휴리스틱을 기반으로 한 적응적 샘플링 방법을 제안하여, Allen-Cahn 방정식의 계면 영역을 후처리 재샘플링 없이 정확하게 해결하고 잔차 기반 적응 프레임워크보다 우수한 성능을 입증합니다.
이 논문은 기존 수치 적분기나 개별 모델 학습의 한계를 극복하고, 다양한 확률 미분방정식 (SDE) 시스템에서 정확도와 효율성을 동시에 향상시키기 위해 텍스트와 수치 정보를 결합한 범용 기반 모델 'FMint-SDE'를 제안합니다.
MotionStream 는 텍스트와 모션 제어를 기반으로 단일 GPU 에서 초당 29 프레임의 실시간 스트리밍 비디오 생성을 가능하게 하며, 고정된 컨텍스트 윈도우를 통해 무한히 긴 비디오를 고품질로 생성하는 새로운 접근법을 제시합니다.
이 논문은 10 개의 사후 인간 뇌에서 추출한 100 만 개의 라벨 없는 조직학적 이미지 패치로 학습된 'CytoNet'이라는 기초 모델을 소개하여, 세포 수준의 미세 구조를 분석하고 이를 거시적 뇌 기능 조직과 연결하는 확장 가능한 통합 프레임워크를 제시합니다.
이 논문은 GRPO 의 평균 기준이 잘못된 해법에도 긍정적 이점을 부여하는 문제를 해결하기 위해 정답 임계값을 기반으로 기준을 클리핑하는 'CoRPO'를 제안하여, 모델의 과적합을 방지하고 도메인 간 일반화 능력을 향상시킨다고 설명합니다.
이 논문은 위상 시프터와 실제 시간 지연을 통합한 위상 - 시간 어레이를 활용하여 단일 다운링크 전송으로 빔 형성과 사용자 위치 추정을 동시에 수행하는 종단 간 딥러닝 기반의 SPOT 방식을 제안함으로써, 기존 방법 대비 오버헤드를 획기적으로 줄이고 2 차원 위치 추정 오차를 개선합니다.
이 논문은 국소적 패턴을 이산 임베딩으로 인코딩하고 신뢰도 인식 코드북 업데이트 전략을 통해 비정상성과 분포 변화에 강인하면서도 경량화된 시계열 예측 프레임워크인 ReCast 를 제안합니다.
이 논문은 멀티모달 KV 캐시의 주파수 영역 에너지 분포와 이상치 (Outlier) KV 를 분석하여, 기존 방법의 한계를 극복하고 FlashAttention 과 호환되면서도 메모리 사용량을 80% 줄이고 디코딩 속도를 1.69 배 향상시키는 'FlashCache'라는 새로운 압축 프레임워크를 제안합니다.
이 논문은 3D 가우스 스플래팅을 활용해 한 팔이 최적의 시점을 찾아 3D 모델을 구축하고 다른 팔이 이를 기반으로 행동을 수행하는 'ObAct'라는 새로운 능동적 비전 모방 학습 프레임워크를 제안하며, 이를 통해 가려짐이 없는 학습 분포에 가까운 관측을 확보하여 기존 정적 카메라 설정보다 훨씬 강력한 양손 로봇 정책을 구현함을 보여줍니다.
본 논문은 유기 광전지 (OPV) 소재의 발견을 가속화하기 위해 예측 모델링과 생성적 분자 설계를 결합한 'CycleChemist'라는 이중 기계 학습 프레임워크를 제안하며, 이를 위해 대규모 OPV 데이터셋 (OPV2D) 을 구축하고 분자 궤도 에너지 추정기 (MOE2), 광전지 성능 예측기 (P3), 그리고 강화 학습 기반의 생성 모델 (MatGPT) 등을 포함한 통합 시스템을 개발했습니다.
이 논문은 기존 데이터 기반 모델의 일반화 한계를 극복하고 정확성과 효율성을 동시에 향상시키기 위해 물리 법칙을 통합한 U-Net-LSTM 네트워크를 제안하여 비선형 구조물의 지진 응답을 예측하는 새로운 접근법을 제시합니다.
이 논문은 확산 모델의 적대적 유도 과정에서 발생하는 분포 왜곡을 경로 공간 KL 발산으로 정량화하고, 생성 모델의 점수 기하학에 수직인 접선 공간으로 적대적 그래디언트를 투영하여 분포를 보존하면서도 분류 성공률을 유지하는 'DPAC'라는 새로운 제어 기법을 제안하고 이론적·실험적으로 검증합니다.
이 논문은 샤이너스 어린이 병원의 연구 데이터 웨어하우스를 OMOP CDM 과 Microsoft Fabric 환경으로 현대화하고, METRIC 프레임워크를 활용한 신뢰할 수 있는 AI 원칙을 데이터 품질 평가에 통합하며, FHIR 표준을 적용한 체계적 및 사례별 AI 구현 전략을 비교함으로써 의료 AI 의 임상 도입을 가속화하는 방안을 제시합니다.
이 논문은 강화학습 기반의 글로벌 가이드, 최소비용 흐름을 활용한 리밸런싱, 그리고 지역적 할당 문제를 결합한 GRAND 라는 계층적 알고리즘을 제안하여 대규모 로봇 군집의 생애 주기 픽업 및 배송 (MAPD) 작업에서 2024 년 우승 스케줄러 대비 최대 10% 의 처리량 향상과 실시간 실행을 동시에 달성했습니다.
이 논문은 의료용 비전 - 언어 모델의 인종별 진단 정확도 편차를 줄이기 위해, 최대 정확도 격차 손실 함수를 도입한 공정성 인식 LoRA 기법 (FR-LoRA, GR-LoRA, Hybrid-LoRA) 을 제안하고, 1 만 장의 녹내장 안저 이미지 실험을 통해 GR-LoRA 가 전체 정확도를 유지하면서 진단 편차를 69% 감소시켰음을 입증했습니다.