cs.AI 편의 논문 | Gist.Science

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

이 논문은 강화학습 기반 LLM 에이전트가 능동적 추론 과정에서 정보 획득을 중단하고 기존 정보를 활용하지 못하는 '정보 자기잠금' 현상을 발견하고, 이를 해결하기 위해 방향성 피드백을 주입하는 새로운 접근법을 제안하여 성능을 최대 60% 향상시켰음을 보여줍니다.

Deyu Zou, Yongqiang Chen, Fan Feng, Mufei Li, Pan Li, Yu Gong, James Cheng2026-03-13🤖 cs.AI

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

이 논문은 외부 교란과 모델 불확실성 하에서도 안정적인 성능을 보장하기 위해, 작업 수행도와 교란 강도를 균형 있게 조절하는 분수 목적 함수를 도입하여 학습된 사용자와 적대적 교란 정책 간의 미니맥스 최적화를 수행하는 'MMDDPG' 프레임워크를 제안합니다.

Taeho Lee, Donghwan Lee2026-03-13🤖 cs.LG

SommBench: Assessing Sommelier Expertise of Language Models

이 논문은 언어 모델이 텍스트 기반 학습만으로 후각과 미각에 기반한 소믈리에 전문성을 습득할 수 있는지 평가하기 위해, 와인 이론, 특징 완성, 음식-와인 페어링 등 세 가지 다국어 태스크로 구성된 'SommBench' 벤치마크를 제안하고 주요 모델들의 성능을 분석한 결과입니다.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

CRAFT: A Tendon-Driven Hand with Hybrid Hard-Soft Compliance

이 논문은 관절에 연성 소재를, 링크에 강성 소재를 배치하여 강도와 내구성을 향상시키고 정밀한 반복 운동을 가능하게 하는 15 개 모터 구동 방식의 저비용 오픈소스 손 'CRAFT'를 소개합니다.

Leo Lin, Shivansh Patel, Jay Moon, Svetlana Lazebnik, Unnat Jain2026-03-13🤖 cs.AI

Increasing intelligence in AI agents can worsen collective outcomes

이 논문은 AI 에이전트의 지능이 향상될수록 자원이 부족할 때는 시스템 과부하와 집단적 위험이 증가하지만, 자원이 풍부할 때는 오히려 과부하가 감소하며, 이러한 결과는 AI 의 sophistication(정교함) 이 아닌 '자원 대비 인구 비율'이라는 단일 수치에 의해 결정됨을 보여줍니다.

Neil F. Johnson2026-03-13💰 q-fin

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

이 논문은 대규모 언어 모델 (LLM) 의 위상적 추론 능력을 평가하기 위해 'TopoBench'라는 벤치마크를 제안하고, 모델의 실패 원인이 추론 자체보다는 공간적 제약 조건을 추출하고 유지하는 데 있음을 규명했습니다.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

Automatic Generation of High-Performance RL Environments

이 논문은 복잡한 강화학습 환경을 수개월의 엔지니어링 없이 10 달러 미만의 비용으로 고성능 구현체로 자동 변환하는 재사용 가능한 레시피를 제시하며, 이를 통해 다양한 환경에서 기존 대비 최대 22,320 배의 성능 향상과 의미적 동등성을 입증했습니다.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

이 논문은 기존 다단계 생성 모델의 계산 비효율성과 기존 증류 방법의 품질 저하 문제를 해결하기 위해, 하이브리드 전략을 통해 궤적 정확도와 화질을 모두 유지하는 소수 단계의 비디오 생성 프레임워크 'FlashMotion'과 이를 평가하는 벤치마크 'FlashBench'를 제안합니다.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

이 논문은 LLM 강화학습 (RL) 후학습의 연산 효율성을 극대화하기 위해 병렬 롤아웃 수, 배치 내 문제 수, 업데이트 단계 수 간의 최적 자원 배분 전략을 제시하며, 병렬 롤아웃 증가는 문제 난이도에 따라 솔루션 정교화 또는 탐색 범위 확장을 통해 성능을 향상시킨다는 실증적 결과를 도출했습니다.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

이 논문은 복잡한 문자와 수식의 정확한 렌더링을 위해 보조 도구를 활용해 글리프 템플릿을 잠재 공간과 주의 맵에 주입하는 훈련 없는 에이전트 워크플로우인 GlyphBanana 를 제안하고, 이를 통해 기존 모델들보다 뛰어난 정밀도를 달성함을 보여줍니다.

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

A Quantitative Characterization of Forgetting in Post-Training

이 논문은 포스트 트레이닝 중 발생하는 망각을 '질량 소실'과 '구성 요소 이동'으로 정의하고, KL 발산 방향, 기하학적 행동 중복도, 샘플링 전략 및 과거 데이터 가시성 간의 상호작용을 통해 망각을 정량화하는 이론적 틀을 제시합니다.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

이 논문은 인간 주석과 파인튜닝 없이도 시·공간적 추론과 대규모 언어 모델 기반의 논리적 추론을 통해 동물 행동 분석 및 포즈 추정을 위한 확장 가능하고 해석 가능한 통합 프레임워크인 'BehaviorVLM'을 제안합니다.

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

이 논문은 MADQA 벤치마크와 새로운 평가 프로토콜을 통해 멀티모달 에이전트가 인간과 유사한 정확도를 달성하더라도 전략적 추론보다는 무작위 검색에 의존하며 효율성 측면에서 한계를 보임을 규명합니다.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

← 이전 다음 →

cs.AI

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

SommBench: Assessing Sommelier Expertise of Language Models

CRAFT: A Tendon-Driven Hand with Hybrid Hard-Soft Compliance

Increasing intelligence in AI agents can worsen collective outcomes

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Automatic Generation of High-Performance RL Environments

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

A Quantitative Characterization of Forgetting in Post-Training

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

Compiling Temporal Numeric Planning into Discrete PDDL+: Extended Version

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights