BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

이 논문은 기존 코드 에이전트 평가의 한계를 지적하고 교차 저장소 및 도메인 전문성 등 더 넓은 범위를 다루는 새로운 벤치마크 'BeyondSWE' 와 검색 기반 프레임워크 'SearchSWE' 를 제안하여, 현재 최첨단 모델조차 복잡한 실세계 작업에서 성능이 제한적이며 검색 증강이 일관된 개선을 보장하지 않음을 밝혔습니다.

Guoxin Chen, Fanzhe Meng, Jiale Zhao + 12 more2026-03-04💬 cs.CL

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

이 논문은 다양한 물리적 구현체에 공통적으로 필요한 공간 지능을 공유 기반대로 활용하여, SSR(기반 구축 - 전문화 - 조화) 패러다임과 GRPO 최적화를 통해 자율 주행, 로봇, UAV 등을 아우르는 범용 embodied intelligence 모델인 ACE-Brain-0 을 제안하고 다양한 벤치마크에서 최첨단 성능을 입증했습니다.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

Understanding and Mitigating Dataset Corruption in LLM Steering

이 논문은 LLM 의 행동 조정을 위한 대비적 스티어링 (contrastive steering) 이 데이터 오염에 어느 정도 강건하지만 악의적인 오염에는 취약할 수 있음을 밝히고, 고차원 평균 계산을 강건한 평균 추정기로 대체함으로써 이러한 악성 오염의 부작용을 효과적으로 완화할 수 있음을 제시합니다.

Cullen Anderson, Narmeen Oozeer, Foad Namjoo + 3 more2026-03-04💬 cs.CL

Scaling Knowledge Graph Construction through Synthetic Data Generation and Distillation

이 논문은 고비용 LLM 에 의존하거나 품질이 낮은 기존 문서 수준 지식 그래프 구축의 한계를 극복하기 위해, 고품질 합성 데이터를 생성하고 이를 통해 작은 모델을 미세 조정하여 단일 단계로 고품질 지식 그래프를 생성하는 'Distill-SynthKG' 프레임워크를 제안하고, 이를 통해 지식 그래프 품질과 검색 기반 질문 응답 성능을 획기적으로 향상시켰음을 보여줍니다.

Prafulla Kumar Choubey, Xin Su, Man Luo + 9 more2026-03-03💬 cs.CL

LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

이 논문은 2011 년부터 2024 년까지의 ICPC 세계 대회 문제를 기반으로 GPT-4o, Mistral Large, Llama-3.1-405B, o1 시리즈 등 최신 대형 언어 모델들의 알고리즘 문제 해결 능력을 평가하는 새로운 프레임워크인 LLM-ProS 를 제안하고, 모델의 추론 능력, 정확도, 효율성 및 학습 방법론의 영향을 분석하여 알고리즘 작업 최적화를 위한 통찰을 제공합니다.

Md Sifat Hossain, Anika Tabassum, Md. Fahim Arefin + 1 more2026-03-03💬 cs.CL

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

이 논문은 로그 스코링 규칙을 기반으로 한 강화학습을 통해 대규모 언어 모델이 답변과 함께 정확도 예측을 신뢰성 있게 표현하도록 직접 미세조정하는 새로운 방법을 제안하여, 과신과 과소신용을 모두 억제하고 일반화된 신뢰도 인식을 가능하게 합니다.

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

이 논문은 92 개의 오픈소스 언어 모델을 메타 분석하여 모델 크기와 학습 토큰 수 외에 데이터 구성과 아키텍처 설계 결정이 하류 작업 성능에 미치는 영향을 정량화함으로써, 단순한 확장 법칙을 넘어선 모델 설계의 중요성을 규명했습니다.

Emmy Liu, Amanda Bertsch, Lintang Sutawika + 9 more2026-03-03💬 cs.CL

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

이 논문은 기존 모델이 직면한 긍정 및 부정 쌍의 유사도 분포 중첩 문제를 해결하기 위해 난이도 가중 대비 학습을 도입한 LLaVE 프레임워크를 제안하고, 이를 통해 7B 모델 대비 2B 모델로도 최첨단 성능을 달성하며 텍스트 - 비디오 검색 등 다양한 작업으로의 제로샷 일반화 능력을 입증했습니다.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL