Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

이 논문은 LLM 의 하류 작업 성능 예측 정확도를 높이기 위해 작업 난이도 특성에 따라 클러스터링하는 COD 프레임워크를 제안하고, 이를 통해 예측 가능한 하위 집단의 성능을 전체 평가 세트로 외삽하여 70B 파라미터 모델에서 평균 1.55% 의 낮은 예측 오차를 달성했음을 보여줍니다.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

이 논문은 RRAM 의 노이즈로 인한 성능 저하를 해결하기 위해 노이즈가 없는 SRAM 에 LoRA 분기를 배치하고 노이즈 환경에 강인하도록 학습하는 'HaLoRA'를 제안하여, 하이브리드 CIM 아키텍처에서 에너지 효율성을 극대화하면서도 LLM 의 추론 정확도를 유지하거나 향상시키는 방법을 제시합니다.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai Wong2026-03-10💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

이 논문은 고비용의 수동 단계 주석이 필요 없이 예측 엔트로피를 기반으로 논리적 전환점을 자동으로 식별하여 효율적인 과정 보상 모델 (EDU-PRM) 을 제안하며, 적은 학습 데이터로도 최첨단 성능을 달성하고 추론 정확도를 높이며 토큰 사용량을 대폭 줄인다는 결과를 보여줍니다.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

이 논문은 K-5 수학 및 독해 평가 문항의 난이도를 예측하기 위해 대규모 언어 모델 (LLM) 을 활용한 직접 추정법과 특징 기반 앙상블 모델 접근법을 비교한 결과, LLM 이 추출한 언어 및 인지 특징을 나무 기반 머신러닝 모델에 입력하는 방식이 가장 높은 예측 정확도를 보였음을 입증했습니다.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

이 논문은 해양 포유류叫声부터 복잡한 실세계 음향에 이르기까지 다양한 도메인의 음향 이해와 추론 능력을 평가하기 위해 DCASE 2025 챌린지의 Task 5 로 오디오 질문 응답 (AQA) 벤치마크를 제안하고, 다양한 오디오 - 언어 모델들의 성능을 비교 분석합니다.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro2026-03-10💬 cs.CL

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

이 논문은 검증 세트 없이도 메타 피드백을 통해 각 문제实例에 맞춰 에이전트 구성을 동적으로 설계, 비판 및 정제할 수 있는 최초의 자기 진화 추론 시간 프레임워크인 MAS-ZERO 를 제안하며, 다양한 벤치마크에서 기존 수동 및 자동 다중 에이전트 시스템보다 뛰어난 성능을 입증합니다.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

이 논문은 HDL 코드의 구조적 및 어휘적 불일치 문제를 해결하기 위해 추상 구문 트리와 데이터 흐름 그래프를 통합한 'HDLxGraph' 프레임워크와 실세계 HDL 프로젝트 기반의 'HDLSearch' 벤치마크를 제안하여, 기존 RAG 기반 방법론보다 검색, 디버깅, 코드 완성 정확도를 크게 향상시켰음을 보여줍니다.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

이 논문은 LLM 이 실제 소프트웨어 개발 워크플로우를 모방하여 패치를 생성하고 CI 파이프라인을 통해 검증하는 경쟁적 평가 프레임워크 'SwingArena'를 제안하며, 이를 통해 긴 맥락의 GitHub 이슈 해결 능력을 다양한 프로그래밍 언어로 평가할 수 있음을 보여줍니다.

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai Wong2026-03-10💬 cs.CL

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

이 논문은 전문가 수준의 테이블 이해, 추론, 조작 능력을 포괄적으로 평가하기 위해 25 가지 실제 태스크와 28,000 개 이상의 질문으로 구성된 대규모 벤치마크인 MMTU 를 소개하고, 최신 선두 모델들조차 이 작업에서 상당한 개선의 여지가 있음을 보여줍니다.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

이 논문은 보상 함수를 프롬프트에 명시하여 모델이 최적화 목표를 인지하도록 하는 '동기 부여 강화 미세 조정 (MeRF)' 방법을 제안함으로써, 기존 검증 가능 보상을 활용한 강화 학습의 비효율성을 극복하고 대형 추론 모델의 성능을 크게 향상시킨다고 설명합니다.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

이 논문은 MLLM 검증기에서 발생하는 '동의 편향 (agreement bias)'을 해결하기 위해 사전 지식을 생성한 후 이를 기반으로 추론하는 '자기 기반 검증 (SGV)' 방법을 제안함으로써, 에이전트의 실패 감지 정확도와 태스크 완료율을 기존 최첨단 성능보다 크게 향상시켰다고 설명합니다.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

이 논문은 대화형 AI 에서 사용자 시뮬레이터의 일관된 목표 달성 능력을 향상시키기 위해 사용자 목표 상태 추적 (UGST) 프레임워크와 3 단계 개발 방법론을 제안하고, 이를 통해 MultiWOZ 2.4 와 τ\tau-Bench 벤치마크에서 목표 정렬 성능을 크게 개선했음을 보여줍니다.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

이 논문은 기존 템플릿 변환 방식의 한계를 극복하고 PlanetMath 의 개념 설명 쌍을 기반으로 강화 학습을 통해 난이도와 구조적 유효성을 최적화하는 새로운 합성 문제 생성 프레임워크인 'MathSmith'를 제안하여, 고난도 수학 추론 능력을 향상시키는 것을 목표로 합니다.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tan2026-03-10💬 cs.CL