cs.AI 편의 논문 | Gist.Science

Agentified Assessment of Logical Reasoning Agents

이 논문은 실행 재현성, 감사 가능성, 그리고 실패 견고성을 보장하는 '에이전트화된 평가 (Agentified Assessment)' 프레임워크를 제시하고, 이를 적용하여 FOLIO 데이터셋에서 자동 형식화 에이전트가 체인 오브 씽킹 (Chain-of-Thought) 기반선보다 높은 정확도 (86.70% 대 73.89%) 를 달성함을 입증했습니다.

Zhiyu Ni, Yifeng Xiao, Zheng Liang2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

이 논문은 Video Diffusion Transformers 가 텍스트 기반 운동 개념을 어떻게 비디오로 변환하는지 이해하기 위해, 그라디언트 계산 없이 운동과 비운동 개념 모두에 대한 시공간적 국소화 맵을 생성하는 새로운 해석 가능한 방법론 (GramCol 및 IMAP) 을 제안합니다.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

이 논문은 이차 모멘트 정규화와 정지 시간/마팅겔 분석을 통해, 고확률 수렴에서 Adam 이 신뢰도 파라미터에 대해 $\delta^{-1/2}$ 의존성을 보이는 반면 SGD 는 적어도 $\delta^{-1}$ 의존성을 갖는다는 이론적 차이를 최초로 증명하여 Adam 의 SGD 대비 우월한 성능을 설명합니다.

Ruinan Jin, Yingbin Liang, Shaofeng Zou2026-03-10🤖 cs.LG

Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

이 논문은 분자 속성 예측 모델에서 작업 정렬과 대칭성이 표현의 선형 분리성을 어떻게 결정하는지 규명하기 위해 새로운 분석 기법인 CPD 를 제안하고, 작업 정렬이 아키텍처보다 정보 분리 효율에 더 지배적인 영향을 미친다는 사실을 입증합니다.

Joshua Steier2026-03-10🤖 cs.LG

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

이 논문은 작은 언어 모델 (70M~410M 파라미터) 에서 데이터 오염을 탐지하기 위해 출력 분포의 뾰족함을 측정하는 CDD 방법이 단순한 확률 기반 방법 (Perplexity, Min-k% Prob) 보다 성능이 낮으며, 미세 조정으로 인한 암기 발생 여부에 따라 탐지 성공 여부가 결정됨을 보여줍니다.

Omer Sela (Tel Aviv University)2026-03-10💬 cs.CL

Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark

이 논문은 SPARQL-MCP 기반의 지능형 에이전트가 분산 지식 그래프 질문 응답 (FKGQA) 을 수행할 수 있도록 기존 벤치마크를 확장하고, 엔드포인트 탐색 및 쿼리 구성 등 다양한 아키텍처를 평가하여 자동화된 SPARQL 페더레이션과 에이전트형 AI 의 융합 가능성을 탐구합니다.

Daniel Dobriy, Frederik Bauer, Amr Azzam + 2 more2026-03-10🤖 cs.AI

Right Move, Right Time: Multi-Sport Space Evaluation Platform for Ultimate Frisbee, Basketball, and Soccer

이 논문은 프로 스포츠 (언리미티드 프리스비, 농구, 축구) 간에 공통적으로 적용 가능한 오픈 플랫폼을 제시하여, 오프볼 런의 타이밍과 사용 가능한 공간에 대한 일관된 공간 평가를 가능하게 한다는 점을 설명합니다.

Shunsuke Iwashita, Titouan Jeannot, Braden Eberhard + 4 more2026-03-10🤖 cs.AI

Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning

이 논문은 SPY 및 XOP 옵션을 대상으로 shortfall 확률과 하방 위험을 고려한 강화학습 프레임워크 (RLOP 및 QLBS) 를 제안하여, 기존 모델의 한계를 극복하고 실제 헤지 성과와 금융 안정성을 향상시키는 자율 AI 에이전트 기반의 위험 관리 접근법을 제시합니다.

Minxuan Hu, Ziheng Chen, Jiayu Yi + 1 more2026-03-10💰 q-fin

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

이 논문은 추천 시스템의 편향을 완화하고 보정 정확도를 향상시키기 위해 신경망 아키텍처에 통합된 미분 가능한 '등적층 (Isotonic Layer)'을 제안하며, 이를 통해 특징 공간의 단조성을 보장하고 컨텍스트별 왜곡을 적응적으로 보정하는 것을 목표로 합니다.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

ARC-AGI-2 Technical Report

이 논문은 대칭성 기반 증강, 테스트 시간 학습 (TTT) 을 통한 LoRA 적응, 그리고 다중 관점 추론을 결합한 변형된 LongT5 아키텍처를 통해 ARC-AGI-2 에서 인간 수준의 일반화 능력에 근접하는 성능을 달성한 새로운 트랜스포머 기반 시스템을 제시합니다.

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe Carthy2026-03-10💬 cs.CL

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

이 논문은 LLM 을 심판자로 활용한 자동화된 안전성 평가 프레임워크가 적대적 공격 시 발생하는 분포 변화로 인해 무작위 추측 수준으로 성능이 저하된다는 점을 6,642 개의 인간 검증 라벨을 통해 입증하고, 더 신뢰할 수 있는 평가를 위해 새로운 벤치마크와 데이터셋을 제안합니다.

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan Günnemann2026-03-10💬 cs.CL

Distributionally Robust Geometric Joint Chance-Constrained Optimization: Neurodynamic Approaches

이 논문은 분포 불확실성 하의 기하학적 결합 확률 제약 최적화 문제를 해결하기 위해 3 가지 불확실성 집합을 기반으로 한 2 시간 척도 신경 동적 듀플렉스 접근법을 제안하며, 이는 기존 최적화 방법 없이 전역 최적해로 확률적으로 수렴하는 신경망 기반 솔루션을 제공합니다.

Ange Valli (L2S), Siham Tassouli (OPTIM), Abdel Lisser (L2S)2026-03-10🔢 math

Building the ethical AI framework of the future: from philosophy to practice

이 논문은 EU AI 법, NIST 위험 관리 프레임워크 등 기존 거버넌스 도구의 한계를 보완하기 위해 AI 수명주기의 각 단계에 결과론·의무론·덕윤리적 사고를 통합한 '3 중 게이트 (성능, 거버넌스, 환경)' 구조를 도입하여 윤리적 원칙을 실행 가능하고 검증 가능한 운영 통제 장치로 전환하는 실용적 AI 거버넌스 프레임워크를 제안합니다.

Jasper Kyle Catapang2026-03-10💻 cs

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

이 논문은 퍼징과 강화 학습 미세 조정을 결합하여 시각 언어 모델 (VLM) 이 의도적으로 오답을 내도록 유도하는 질문을 자동 생성함으로써 모델의 취약점을 효과적으로 발견하고 성능을 저하시키는 'FuzzingRL' 방법을 제안합니다.

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

이 논문은 모델의 규모가 커질수록 의미적으로 유사한 문서들이 표면적 중복과 유사하게 작용하여 학습에 해로운 영향을 미치고 스케일링 법칙을 왜곡한다는 점을 규명하여, 데이터의 의미적 중복이 모델 성능 예측에 미치는 규모 의존적 영향을 분석하고 이를 보정하는 스케일링 법칙을 제시합니다.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

이 논문은 C-V2X 무선 자원 할당 문제를 다중 에이전트 강화 학습의 주요 난제를 분리하여 평가할 수 있는 일련의 간섭 게임과 대규모 데이터셋으로 체계화하고, 다양한 차량 토폴로지에서의 정책 견고성과 일반화가 가장 큰 도전 과제임을 규명하며 관련 코드와 벤치마크를 오픈소스로 공개합니다.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

이 논문은 스타크래프트 II 의 풀 게임과 미니 게임 사이의 간극을 해소하기 위해 경제 및 건설 요소를 제거하고 전술적 기동과 전투에 집중하도록 설계된 오픈소스 중간 난이도 벤치마크 '투브리지 (Two-Bridge)'를 제안합니다.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

← 이전 다음 →

cs.AI