Fine-grained Soundscape Control for Augmented Hearing
이 논문은 제한된 컴퓨팅 자원을 가진 청각 보조 장치에서 실시간으로 여러 소리 소스를 개별적으로 추출하고 볼륨을 조절할 수 있는 최초의 시스템인 'Aurchestra'를 제안하여, 단순한 소음 제거를 넘어 환경을 프로그래밍 가능하게 만드는 정교한 사운드스케이프 제어 기술을 제시합니다.
9737 편의 논문
이 논문은 제한된 컴퓨팅 자원을 가진 청각 보조 장치에서 실시간으로 여러 소리 소스를 개별적으로 추출하고 볼륨을 조절할 수 있는 최초의 시스템인 'Aurchestra'를 제안하여, 단순한 소음 제거를 넘어 환경을 프로그래밍 가능하게 만드는 정교한 사운드스케이프 제어 기술을 제시합니다.
이 논문은 도구 활용 에이전트의 학습 데이터에 인터프리터 상태 지속성이 포함되는지 여부가 해결 능력에는 영향을 주지 않지만 토큰 효율성과 안정성에는 결정적인 차이를 만든다는 점을 규명하고, 학습 데이터와 배포 런타임의 정렬을 강조합니다.
이 논문은 강화학습 (RL) 중 발생하는 보상 희소성 문제를 해결하기 위해 인간이 작성한 참조 해답을 모델의 추론 공간에 맞게 부분적으로 활용하여 긍정적 학습 경로를 생성하는 '참조 유도 미세 조정 (ReGFT)' 방법을 제안하고, 이를 통해 수학 추론 성능과 RL 학습 효율성을 동시에 향상시킨다는 것을 보여줍니다.
이 논문은 2009 년부터 2025 년까지의 15 년간 393 명의 연사 약 2,300 시간 분량의 헤브리어 의회 연설을 포함한 대규모 종단적 음성 데이터셋 'VoxKnesset'을 공개하고, 이를 통해 화자 검증 및 나이 예측 모델의 노화 적응 성능을 평가한 결과를 제시합니다.
이 논문은 선형 복잡도의 분리형 어텐션 메커니즘을 도입하여 3 체 상호작용을 모델링함으로써, 기존 등변성 모델과 동등한 정확도를 유지하면서도 계산 비용을 획기적으로 줄인 새로운 불변 MLIP 인 MatRIS 를 제안합니다.
이 논문은 그래프 출력에 대한 분포 없는 커버리지 보장을 제공하기 위해 Z-그로모프-워터스테인 거리를 비동일성 척도로 정의하고, 복잡한 출력 공간을 처리할 수 있는 적응형 예측 집합을 생성하는 새로운 정합 예측 프레임워크를 제안합니다.
이 논문은 복잡한 비선형 좌표 변환과 IoU(교집합 비율) 지표를 극복하기 위해 IoUCert라는 새로운 형식적 검증 프레임워크를 제안하여, SSD 및 YOLOv2/v3 와 같은 앵커 기반 객체 탐지 모델의 강건성을 최초로 검증할 수 있음을 보여줍니다.
이 논문은 텍스트 임베딩의 스펙트럼 클러스터링에서 표준 k-NN 그래프의 연결성 부족 문제를 해결하기 위해, 새로운 노드가 기존 노드들과 연결되도록 설계된 점진적 k-NN 그래프 구축 방법을 제안하여 저 k 값 영역에서도 안정적인 클러스터링 성능을 보장함을 보여줍니다.
이 논문은 충격 반응 스펙트럼 (SRS) 에서 가속도 시간 이력을 역추정하는 비선형 다대일 문제를 해결하기 위해, 기존 반복 최적화 방식보다 훨씬 빠르고 정확한 데이터 기반 역매핑을 학습하는 조건부 변분 오토인코더 (CVAE) 를 제안합니다.
이 논문은 민감한 데이터 유출 없이 안전한 실행 환경을 보장하며 실패한 운영 궤적을 학습 신호로 전환하는 훈련 가능한 다중 에이전트 프레임워크 'AOI'를 제안하여, 기존 SRE 자동화 방식의 한계를 극복하고 진단 및 복구 성능을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 비대칭 거리 행렬의 정적 및 동적 특성을 각각 특이값 분해 (SVD) 와 싱크혼 정규화를 통해 효과적으로 인코딩하여, 기존 신경망 기반 VRP 솔버의 비대칭 문제 해결 능력과 일반화 성능을 획기적으로 향상시킨 'RADAR' 프레임워크를 제안합니다.
이 논문은 대규모 LLM 기반 에이전트 중심의 ML 파이프라인 탐색 작업을 지원하기 위해 기존 Python 생태계와 호환되면서도 Rust 기반 런타임 등을 활용한 최적화된 실행을 가능하게 하는 새로운 시스템 인프라 'stratum'을 제안하고, 이를 통해 탐색 속도를 최대 16.6 배까지 향상시킬 수 있음을 보여줍니다.
이 논문은 선형 RNN(LRNN) 이 비선형 RNN 보다 병렬화가 용이한 이유를 복잡도 클래스 (Log-depth 회로 대 P-완전 문제) 와 오토마타 이론을 통해 이론적으로 규명하고, 다양한 LRNN 변형 간의 정밀한 표현력 차이를 분석하여 표현력과 병렬성 사이의 균형을 잡는 LLM 아키텍처 설계의 기초를 제공합니다.
이 논문은 희귀한 쌍을 이루는 데이터를 극복하기 위해 DMD2 기반 확산 가이드와 해부학적 구조 보존 정규화를 결합한 비쌍합 신경 슈뢰딩거 브리지 프레임워크를 제안하여 초저자장 (64 mT) 뇌 MRI 의 화질을 3T 수준으로 향상시키는 방법을 제시합니다.
본 논문은 NLBSE'26 대회에서 Java, Python, Pharo 코드의 주석 분류를 위해 LoRA 를 활용한 4 개의 트랜스포머 인코더를 앙상블한 LoRA-MME 를 제안하고, 높은 분류 정확도와 높은 계산 비용 간의 트레이드오프를 확인했습니다.
본 논문은 언어 기반 정렬 메커니즘인 '시맨틱 앵커링 (Semantic Anchoring)'을 도입하여 CPath-CLIP 모델이 종간 전이 학습 시 겪는 시맨틱 붕괴 문제를 해결하고, 텍스트가 시각적 특징을 재해석하여 암 진단 성능을 획기적으로 개선함을 입증했습니다.
이 논문은 각 토큰의 의미에 따라 압축률을 동적으로 할당하여 기존 방법들보다 높은 압축 비율에서도 우수한 성능을 유지하는 새로운 KV 캐시 압축 프레임워크인 DynaKV 를 제안합니다.
이 논문은 그래프 구조 신호의 복잡한 시공간적 의존성을 포착하기 위해 시간-공간 주파수 영역에서 예측과 실제 값을 정렬하는 새로운 훈련 목표인 FreST Loss 를 제안하여, 기존 시계열 예측 모델의 편향을 줄이고 성능을 향상시킨다는 점입니다.
본 논문은 대규모 계산을 통해 비전 - 언어 모델 (VLM) 이 다양한 에이전트 페르소나와 상황적 프라임에 따라 물체의 affordance(행동 가능성) 를 계산할 때 어휘적 및 의미적 수준에서 현저한 편차를 보이며, 이는 고정된 세계 모델링이 아닌 동적이고 질의에 의존적인 온톨로지 투영 (JIT Ontology) 이 로봇 공학 연구에 필요함을 시사한다고 주장합니다.
이 논문은 평형 상태를 입력으로 사용하여 시스템 매개변수를 역추적하는 딥러닝 기반의 평형 정보 신경망 (EINN) 을 제안함으로써, 복잡한 동역학 시스템의 임계점과 급격한 상태 전이를 기존 방법보다 효율적으로 탐지할 수 있음을 보여줍니다.