cs.LG 편의 논문 | Gist.Science

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

이 논문은 자동주행을 위한 잠재적 세계 모델에 대한 통합 분류법과 평가 체계를 제시하고, 구조적 동형성 및 장기적 안정성 등 다섯 가지 핵심 메커니즘을 분석하여 검증 가능하고 자원 효율적인 의사결정 시스템으로의 발전 방향을 제시합니다.

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

이 논문은 상태 의존적 무효 행동에 대한 페널티 기반 학습이 공유 파라미터를 통해 방문하지 않은 상태의 유효 행동을 체계적으로 억제하는 새로운 실패 모드를 규명하고, 이를 해결하기 위해 페널티 방식 대신 무효 행동 분류를 활용한 마스킹 없는 정책 경사 알고리즘의 이론적 증명 및 실험적 검증을 제시합니다.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. SycaraWed, 11 Ma🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

이 논문은 실리콘 - 흑연 음극을 포함한 전기차 배터리의 전압 히스테리시스를 예측하기 위해 데이터 조화 프레임워크와 확률적 학습 모델을 도입하여 상태 충전량 (SoC) 추정의 정확도와 불확실성 정량을 동시에 개선하는 데이터 기반 접근법을 제시합니다.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. CremerWed, 11 Ma🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

이 논문은 검증 가능한 보상을 통한 강화학습 (RLVR) 에서 발생하는 정확도 최적화와 보정 오류 최소화 간의 근본적인 경량 충돌 문제를 해결하기 위해 추론과 보정 목표를 체계적으로 분리하는 DCPO 프레임워크를 제안하여, 정확도를 유지하면서도 과도한 자신감 문제를 완화하고 모델의 보정 성능을 획기적으로 개선합니다.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le SunWed, 11 Ma🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

이 논문은 클래스 증분 학습에서 기존 특징과 새 특징 간의 충돌을 완화하기 위해, 인과적 관점에서 필요충분조건 확률 (PNS) 을 기반으로 한 정규화 방법과 이중 범위 반사실 생성기를 제안하여 특징의 인과적 완전성과 분리성을 동시에 보장하는 접근법을 제시합니다.

Zhen Zhang, Jielei Chu, Tianrui LiWed, 11 Ma🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap 는 LLM 이 작성한 평가 기준 (rubric) 에서 파생된 세분화된 보상 신호를 활용하여 강화 학습을 통해 기존 감독 학습 및 이전 RL 방법보다 우수한 성능과 다양성을 보이는 밀도 이미지 캡셔닝 프레임워크를 제안합니다.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

이 논문은 기능적 오류가 있더라도 LLM 이 생성한 RTL 에서 추출된 합성 네틀리스트가 의도된 기능의 구조적 패턴을 보존한다는 통찰을 바탕으로, 레이블이 부족한 회로 설계 분야에서 고품질 데이터의 병목 현상을 해결하고 실제 회로에 일반화되는 효과적인 네틀리스트 표현 학습 프레임워크를 제안합니다.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

이 논문은 기존 트랜스포머 모델의 한계를 극복하고 지질학적 지식을 어텐션 메커니즘에 통합하여 시추공 로그 기반의 암상 식별 정확도와 해석 가능성을 혁신적으로 향상시킨 '지질 정보 기반 어텐션 트랜스포머 (GIAT)' 프레임워크를 제안합니다.

Jie Li, Qishun Yang, Nuo LiWed, 11 Ma🤖 cs.AI

Better Bounds for the Distributed Experts Problem

이 논문은 $n$ 명의 전문가가 $s$ 개의 서버에 분산된 환경에서 $\ell_p$ 손실 함수를 고려할 때, 이전 연구보다 향상된 통신 비용으로 regret 을 최소화하는 새로운 프로토콜을 제안합니다.

David P. Woodruff, Samson ZhouWed, 11 Ma🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

이 논문은 확률적 교통 흐름 동역학에서 유도된 물리 정보 기반 생성 모델링 프레임워크를 제시하여, 결정론적 편미분방정식에 의존하던 기존 방법의 한계를 극복하고 교통 상태의 확률 분포를 직접 학습하여 불확실성 정량화 및 신뢰구간 추정이 가능하도록 합니다.

Wuping XinWed, 11 Ma🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

이 논문은 계획 능력을 가진 이산 확산 언어 모델 (DDLM) 과 유창한 실행 능력을 가진 자기회귀 언어 모델 (ARM) 을 잠재 공간에서 연결하여 다양한 추론 작업에서 정확도를 획기적으로 향상시키고 토큰 효율성을 극대화하는 'Latent-DARM' 프레임워크를 제안합니다.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei ChenWed, 11 Ma🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

이 논문은 공개된 코드가 없어 재현이 어려웠던 'Band-Split RNN' 모델을 재현 시도하는 과정에서 원본보다 성능이 향상된 최적화 모델을 개발하고, 연구 재현성 부족이 초래한 시간과 에너지 낭비 문제를 비판적으로 분석하며 재현 가능한 연구 문화를 장려하기 위해 코드와 모델을 공개합니다.

Paul Magron, Romain Serizel, Constance DouwesWed, 11 Ma🤖 cs.LG

$P^2$ GNN: Two Prototype Sets to boost GNN Performance

이 논문은 노드 간 연결의 국소적 의존성과 노이즈 문제를 해결하기 위해 전역적 맥락을 제공하고 노이즈를 제거하는 두 가지 프로토타입 집합을 활용하여 기존 메시지 전달 기반 GNN 의 성능을 획기적으로 향상시키는 $P^2$ GNN 을 제안하고, 다양한 데이터셋에서 그 우수성을 입증합니다.

Arihant Jain, Gundeep Arora, Anoop Saladi, Chaosheng DongWed, 11 Ma🤖 cs.LG

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

이 논문은 논리적 추론 능력의 향상이 기계적 경로를 통해 AI 의 상황 인식과 전략적 기만 같은 위험한 능력으로 이어질 수 있음을 'RAISE' 프레임워크를 통해 분석하고, 이에 대한 구체적인 안전 장치와 연구 공동체의 책임을 제안합니다.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

이 논문은 학습 데이터를 기반으로 SOI(관심 신호) 와 간섭을 분리하는 데이터 중심의 트랜스포머 기반 신호 분리기를 제안하며, SoundStream 을 변형한 토크나이저와 교차 엔트로피 손실 함수를 통해 기존 최첨단 기술 대비 비트 오류율을 122 배 감소시키는 성과를 입증했습니다.

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. WornellWed, 11 Ma🤖 cs.LG

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

이 논문은 감정을 단순한 예측 대상이 아닌 LLM 의 추론과 어텐션 기하학에 영향을 미치는 잠재적 요인으로 규명하고, 이를 통제하기 위해 감정 균형 QA 데이터셋 AURA-QA 와 감정 정규화 프레임워크를 제안하여 다양한 환경에서 읽기 이해 성능을 향상시켰음을 보여줍니다.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

이 논문은 이미지와 같은 시드 데이터 없이도 추론 능력을 향상시키기 위해 제안자, 코더, 솔버라는 세 가지 역할을 도입하고 그룹 상대적 정책 최적화 (GRPO) 를 활용한 강화 학습 기반의 자기 진화 프레임워크인 MM-Zero 를 제안합니다.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

이 논문은 대규모 상태 공간에서 일반합 마르코프 게임의 균형 계산을 위해 선형 함수 근사를 활용한 'RQRE-OVI' 알고리즘을 제안하며, 합리성과 위험 민감도 매개변수 간의 균형을 통해 나시 균형 대비 계산적 효율성과 강건성을 동시에 확보하는 이론적·실증적 성과를 입증합니다.

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. RatliffWed, 11 Ma🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

이 논문은 추론을 최적 제어 문제로 재정의하고, 사전 훈련된 LLM 에 통합 가능한 하드웨어 효율적인 'Test-Time Control (TTC)' 레이어를 제안하여 추론 시 잠재 상태에 대한 유한 시간 LQR 계획을 수행함으로써 수학 추론 성능을 획기적으로 향상시킨다고 요약할 수 있습니다.

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René VidalWed, 11 Ma🤖 cs.LG

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

이 논문은 이산 또는 혼합 변수를 가진 복잡한 분포에서 목표 함수의 기울기 없이도 물리적 전이 커널과 시간 가역성 제약을 활용하여 forward 및 backward 마르코프 궤적 간의 최대 평균 불일치 (MMD) 를 최소화하는 새로운 생성적 샘플링 프레임워크를 제안하고, 이를 다양한 벤치마크에서 검증했습니다.

Lei Li, Zhen Wang, Lishuo ZhangWed, 11 Ma🤖 cs.LG

← 이전 다음 →

cs.LG