Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

이 논문은 고비용과 훈련 부담을 줄이기 위해 거시적 계획과 미시적 실행의 2 단계 추론 패러다임을 도입한 단일 통합 모델 'Uni-CoT'를 제안하여 텍스트와 비전을 아우르는 일관된 다중 모달 추론을 가능하게 하고, WISE, RISE, KRIS 등 다양한 벤치마크에서 최첨단 성능을 입증했습니다.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

이 논문은 기존 모델을 미세 조정하거나 보조 모델 없이도 텍스트-시각 편향과 공발생 편향을 완화하여 멀티모달 대규모 언어 모델의 환각 현상을 줄이고 시각적 근거를 강화하기 위해, 1 차 테일러 그래디언트를 활용한 그라디언트 기반 영향 인식 제약 디코딩 (GACD) 방법을 제안합니다.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

Post-training Large Language Models for Diverse High-Quality Responses

이 논문은 기존 강화학습 기반 후학습 방법이 LLM 의 응답 다양성을 저하시킨다는 문제를 해결하기 위해, 결정적 포인트 프로세스 (DPP) 를 기반으로 품질과 의미적 다양성을 동시에 최적화하는 새로운 훈련 방법인 DQO 를 제안하고 다양한 과제에서 그 유효성을 입증합니다.

Yilei Chen, Souradip Chakraborty, Lorenz Wolf + 2 more2026-03-03💬 cs.CL

Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

이 논문은 프롬프트, 도구 사용, 코드 생성 등 다양한 LLM-그래프 상호작용 모드를 대규모로 평가하여 코드 생성이 특히 긴 텍스트나 고차원 그래프에서 가장 강력한 성능을 보이며, 동질성 여부와 상관없이 구조, 특성, 레이블 간의 유연한 적응이 가능함을 규명했습니다.

Ben Finkelshtein, Silviu Cucerzan, Sujay Kumar Jauhar + 1 more2026-03-03💬 cs.CL

Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

이 논문은 추론 속도를 높이는 스펙큘레이티브 디코딩에서 드래프트 모델의 학습 목표와 디코딩 시의 트리 정책 간 불일치를 해결하기 위해, 드래프트 트리의 기대 수용 길이를 직접 최적화하는 '그룹 트리 최적화 (GTO)'를 제안하여 기존 최첨단 방법보다 더 높은 수용 길이와 가속도를 달성함을 보여줍니다.

Shijing Hu, Jingyang Li, Zhihui Lu + 1 more2026-03-03💬 cs.CL

Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

이 논문은 실시간 사용자 피드백을 기반으로 소수의 파라미터를 한 번의 효율적인 업데이트로 조정하여 다턴 대화 중 LLM 의 성능 저하를 해결하고 사용자 선호도에 부합하는 최적 정책을 수렴하도록 보장하는 '테스트 타임 정책 적응 (T2PAM)' 프레임워크와 이를 구현하는 'ROSA' 알고리즘을 제안합니다.

Chenxing Wei, Hong Wang, Ying He + 2 more2026-03-03💬 cs.CL

Scaling with Collapse: Efficient and Predictable Training of LLM Families

이 논문은 최적화된 확장 규칙 하에서 LLM 의 학습 손실 곡선이 보편적 궤적으로 수렴하는 '붕괴' 현상을 규명하고, 이를 통해 학습 병목의 조기 진단과 하이퍼파라미터 튜닝의 조기 종료를 가능하게 하여 효율적인 LLM 패밀리 'Celerity'를 개발하는 데 성공했음을 보여줍니다.

Shane Bergsma, Bin Claire Zhang, Nolan Dey + 3 more2026-03-03💬 cs.CL

Calibrating Verbalized Confidence with Self-Generated Distractors

이 논문은 LLM 의 과도한 자신감 문제를 해결하기 위해 모델이 생성한 오답 (distractors) 에 대한 자신감 평가를 정규화하고 생성자 - 검증자 불일치를 활용하여 'DINCO'라는 새로운 보정 방법을 제안하며, 기존 자기일관성 방법보다 훨씬 적은 추론 비용으로 우수한 보정 성능을 달성함을 보여줍니다.

Victor Wang, Elias Stengel-Eskin2026-03-03💬 cs.CL

MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

이 논문은 47 개 언어에 걸친 6,423 개의 인간 주석 선호도 데이터셋과 청중 설계 원리를 기반으로 한 MENLO 평가 프레임워크를 제안하여, 다국어 LLM 의 원어민 수준의 품질을 평가하고 강화 학습 등을 통해 모델 성능을 향상시키는 방법을 제시합니다.

Chenxi Whitehouse, Sebastian Ruder, Tony Lin + 6 more2026-03-03💬 cs.CL