Learn Hard Problems During RL with Reference Guided Fine-tuning

이 논문은 강화학습 (RL) 중 발생하는 보상 희소성 문제를 해결하기 위해 인간이 작성한 참조 해답을 모델의 추론 공간에 맞게 부분적으로 활용하여 긍정적 학습 경로를 생성하는 '참조 유도 미세 조정 (ReGFT)' 방법을 제안하고, 이를 통해 수학 추론 성능과 RL 학습 효율성을 동시에 향상시킨다는 것을 보여줍니다.

Yangzhen Wu, Shanda Li, Zixin Wen + 5 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

이 논문은 텍스트 임베딩의 스펙트럼 클러스터링에서 표준 k-NN 그래프의 연결성 부족 문제를 해결하기 위해, 새로운 노드가 기존 노드들과 연결되도록 설계된 점진적 k-NN 그래프 구축 방법을 제안하여 저 k 값 영역에서도 안정적인 클러스터링 성능을 보장함을 보여줍니다.

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

AOI: Turning Failed Trajectories into Training Signals for Autonomous Cloud Diagnosis

이 논문은 민감한 데이터 유출 없이 안전한 실행 환경을 보장하며 실패한 운영 궤적을 학습 신호로 전환하는 훈련 가능한 다중 에이전트 프레임워크 'AOI'를 제안하여, 기존 SRE 자동화 방식의 한계를 극복하고 진단 및 복구 성능을 획기적으로 향상시켰음을 보여줍니다.

Pei Yang, Wanyi Chen, Asuka Yuxi Zheng + 11 more2026-03-06💻 cs

stratum: A System Infrastructure for Massive Agent-Centric ML Workloads

이 논문은 대규모 LLM 기반 에이전트 중심의 ML 파이프라인 탐색 작업을 지원하기 위해 기존 Python 생태계와 호환되면서도 Rust 기반 런타임 등을 활용한 최적화된 실행을 가능하게 하는 새로운 시스템 인프라 'stratum'을 제안하고, 이를 통해 탐색 속도를 최대 16.6 배까지 향상시킬 수 있음을 보여줍니다.

Arnab Phani, Elias Strauss, Sebastian Schelter2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

본 논문은 대규모 계산을 통해 비전 - 언어 모델 (VLM) 이 다양한 에이전트 페르소나와 상황적 프라임에 따라 물체의 affordance(행동 가능성) 를 계산할 때 어휘적 및 의미적 수준에서 현저한 편차를 보이며, 이는 고정된 세계 모델링이 아닌 동적이고 질의에 의존적인 온톨로지 투영 (JIT Ontology) 이 로봇 공학 연구에 필요함을 시사한다고 주장합니다.

Murad Farzulla2026-03-06💻 cs