Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck
이 논문은 체인 오브 씽킹 (CoT) 생성을 조건부 정보 병목 (CIB) 원리로 재해석하여, 어텐션 메커니즘의 마르코프 성질 위반 문제를 해결하고 의미적 사전 분포를 도입함으로써 추론 비용을 줄이면서도 정확도와 논리성을 유지하는 새로운 강화학습 목적 함수를 제안합니다.
11979 편의 논문
이 논문은 체인 오브 씽킹 (CoT) 생성을 조건부 정보 병목 (CIB) 원리로 재해석하여, 어텐션 메커니즘의 마르코프 성질 위반 문제를 해결하고 의미적 사전 분포를 도입함으로써 추론 비용을 줄이면서도 정확도와 논리성을 유지하는 새로운 강화학습 목적 함수를 제안합니다.
이 논문은 복잡한 TPMS 기하학적 구조에서 유체 흐름을 해결할 때 발생하는 PINN 의 수렴 병목 현상을 극복하기 위해, 계층적 구형 제어 체적에 기반한 다중 스케일 약형 물리 정보 신경망 (MUSA-PINN) 을 제안하여 정확도와 질량 보존성을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 물리 법칙을 준수하는 라그랑주 신경망 (LNN) 을 강화학습의 Dyna 프레임워크에 통합하여, 기존 블랙박스 모델보다 더 정확하고 견고한 모델 기반 강화학습을 가능하게 함을 제안하고 있습니다.
이 논문은 불확실한 환경에서 로봇의 예측 정확도와 물리 일관성을 동시에 향상시키기 위해 보존적 강체 역학을 라그랑주 신경망으로 모델링하고 불확실한 상호작용을 조건부 흐름 매칭으로 학습하는 'STRIDE' 프레임워크를 제안합니다.
이 논문은 생성 모델 내부의 오디오 - 비주얼 교차 어텐션 메커니즘을 역추적하여 포렌식 신호를 추출하는 'X-AVDT' 검출기와 새로운 다중 모달 데이터셋 'MMDF'를 제안함으로써, 다양한 생성 모델에 대한 딥페이크 탐지의 강건성과 일반화 성능을 획기적으로 향상시켰습니다.
이 논문은 비선형 동역학 시스템의 비침습적 차원 축소 모델링을 위해 국소 연산자 구조를 보존하고 이질적 연산자의 합성 구성을 지원하는 구조 보존형 합성 신경망 기반 연산자 추론 (NN-OpInf) 프레임워크를 제안하며, 기존 다항식 기반 방법보다 향상된 정확도, 안정성 및 강건성을 입증합니다.
이 논문은 알고리즘의 최적값이나 경계 없이도 시간별 성능 순위 기반의 베이지안 레이싱을 통해 파레토 최적 알고리즘 집합을 효율적으로 식별하고 불확실성을 정량화하는 'PolarBear' 프레임워크를 제안합니다.
이 논문은 기존에 복잡한 모델에 적용하기 어려웠던 신념 집합 (credal sets) 기반의 불확실성 추정을, 앙상블 학습 없이도 효율적으로 수행할 수 있는 '탈교정 (decalibration)' 기법을 통해 가능하게 함으로써 안전-중요 분야에서 신뢰할 수 있는 불확실성 표현을 실현합니다.
이 논문은 단일 뷰 심초음파의 한계를 극복하고 다중 뷰 심초음파의 형태학적 정보를 활용하여 심전도 (ECG) 표현을 강화하는 'Echo2ECG'라는 다중 모달 자기지도 학습 프레임워크를 제안하며, 이를 통해 구조적 심장 표현형 분류 및 심초음파 검색 과제에서 기존 최첨단 모델보다 뛰어난 성능을 입증했습니다.
이 논문은 체스 환경에서 정책 모델과 블러드 예측 모델을 결합한 '오라클 가이드 소프트 실드 (OGSS)' 프레임워크를 제안하여, 탐색 비율을 높임에도 불구하고 전술적 실수를 줄이면서 안전하고 경쟁력 있는 수를 예측할 수 있음을 보여줍니다.
이 논문은 다목적 강화학습의 오목 스칼라화 문제에서 발생하는 편향 장벽을 해결하기 위해 다단계 몬테카를로 추정기를 활용한 자연 정책 경계 알고리즘을 제안함으로써, -최적 정책을 계산하는 데 있어 최적의 샘플 복잡도 보장을 달성했습니다.
이 논문은 지도 학습 없이 그래프 정렬을 수행하는 기존 방법들의 정확도-효율성 한계를 극복하기 위해, 국소적 표현과 전역적 정렬의 불일치를 해결하는 새로운 '전역 표현 및 정렬' 패러다임을 제안하고, 이를 구현한 GlobAlign 및 효율성을 극대화한 GlobAlign-E 알고리즘을 통해 기존 최첨단 방법 대비 정확도를 20% 이상 향상시키고 OT 기반 방법의 계산 복잡도를 3 차에서 2 차로 낮추어 속도를 10 배 이상 개선했음을 보여줍니다.
이 논문은 라벨이 없는 관찰 데이터만으로 객체 간 공출현 관계를 학습하는 'ProReFF' 모델을 제안하고, 이를 통해 로봇이 미지의 환경에서 인간 수준의 효율성으로 객체를 탐색할 수 있도록 하는 방법을 제시합니다.
이 논문은 일관성 모델을 활용하여 물리적으로 일관된 장시간 상호작용을 실시간으로 시뮬레이션할 수 있는 '인터랙티브 월드 시뮬레이터'를 제안하며, 이를 통해 생성된 데이터로 학습된 로봇 정책이 실제 세계와 유사한 성능을 보임으로써 확장 가능한 로봇 데이터 생성 및 정책 평가의 신뢰할 수 있는 대안임을 입증합니다.
이 논문은 하류 위험 목표와 정렬된 생성기를 학습하여 다양한 정책 하에서 최악의 위험 편차를 식별하는 적대적 정책을 도입함으로써, VaR 및 ES 와 같은 조건부 위험 시나리오를 보다 정확하게 생성하는 '생성적 적대 회귀 (GAR)' 프레임워크를 제안합니다.
이 논문은 강화학습에서 상태 그래프의 대수적 연결성 (algebraic connectivity) 이 학습된 라플라시안 표현을 통한 가치 함수 근사 오차에 미치는 영향을 이론적으로 규명하고, 이를 일반 정책 하에서 검증하여 차원의 저주 문제를 해결하는 새로운 통찰을 제공합니다.
이 논문은 지식, 진리, 신뢰를 수학적 틀로 정립하여 '확신 (conviction)'을 신뢰의 핵심 기반으로 삼고, 이를 통해 AI 에이전트와 같은 오류 가능성이 있는 출처에 대한 신뢰를 구축하기 위한 평판 체계를 제안합니다.
이 논문은 지연된 라벨링과 계산 제약 하에서 배포된 머신러닝 시스템의 분포 드리프트를 안전성 보장과 함께 실시간으로 감지하고 개입하는 'Drift2Act' 컨트롤러를 제안하여, 온라인 위험 증명서를 통해 안전 위반을 최소화하고 신속한 회복을 달성함을 보여줍니다.
이 논문은 MLP 의 고정된 활성화 함수 한계와 기존 KAN 의 파라미터 폭증 문제를 해결하기 위해, 입력 변환과 출력 활성화를 독립적으로 제어하는 듀얼 스테이지 메커니즘을 도입하여 정확도와 효율성을 동시에 극대화한 'DualFlexKAN'을 제안합니다.
이 논문은 리플레이 버퍼와 배치 업데이트 없이 순수 온라인 업데이트를 수행하여 제한된 하드웨어 환경과 Sim2Real 전이 등에 적합한 두 가지 새로운 스트리밍 딥 강화학습 알고리즘 (S2AC, SDAC) 을 제안하고, 배치 학습에서 스트리밍 학습으로의 전환 시 발생하는 실용적 문제를 해결하는 전략을 제시합니다.