HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

이 논문은 기존 조기 및 후기 융합 방식의 한계를 극복하기 위해, 에지 기반 이분 부분 그래프 검색, 쿼리 관련 노드 확장, 그리고 별 그래프 수준의 LLM 추론을 결합한 HELIOS 모델을 제안하여 OTT-QA 벤치마크에서 기존 최첨단 모델 대비 현저히 우수한 성능을 달성했다고 요약할 수 있습니다.

Sungho Park, Joohyung Yun, Jongwuk Lee + 1 more2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

이 논문은 확산 언어 모델 (DLM) 의 학습 데이터 암기 행동을 체계적으로 분석하여, 샘플링 해상도와 암기 확률 간의 단조 증가 관계를 이론적으로 증명하고, 기존 autoregressive 모델에 비해 DLM 이 개인 식별 정보 (PII) 유출 위험이 낮음을 실험적으로 입증했습니다.

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

이 논문은 텍스트 중심의 기존 안전 평가 한계를 극복하기 위해 자동 크로스모달 페이로드 생성, 다중 턴 공격 알고리즘, 그리고 인터-턴 모달리티 스위칭 (ITMS) 을 통합한 오픈소스 플랫폼 'MUSE'를 제안하며, 이를 통해 멀티모달 LLM 의 정렬이 오디오, 이미지, 비디오 등 다른 모달리티로 일반화되지 않을 수 있음을 실험적으로 입증했습니다.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

이 논문은 토큰 반올림 문제를 해결하기 위해 연속 임베딩 공간에서의 확산과 컨텍스트 기반 자동회귀 디코더를 결합한 'CoDAR' 프레임워크를 제안함으로써, 기존 연속 확산 언어 모델의 성능 한계를 극복하고 강력한 이산 확산 모델과 경쟁 가능한 생성 품질을 달성했음을 보여줍니다.

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

이 논문은 추천 시스템과 자연어 처리에서 기존 생성자 - 평가자 프레임워크의 병렬화 한계와 정확도 문제를 해결하기 위해, Kuaishou 의 온라인 추천 시스템에서 실질적인 수익 증대를 이끌어낸 'FlashEvaluator'를 제안하며, 이는 모든 시퀀스를 단일 순전파로 처리하여 계산 복잡도를 아선형으로 낮추고 시퀀스 간 비교를 통해 정확도를 향상시킵니다.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

이 논문은 언어적 특징, 감정, 성격이라는 세 가지 도메인과 세 가지 지정 수준 (L1~L3) 으로 구성된 계층적 벤치마크 'SteerEval'을 제안하여 대규모 언어 모델의 행동 제어 가능성을 체계적으로 평가하고, 세밀한 수준일수록 제어 성능이 저하된다는 사실을 규명합니다.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

Think, But Don't Overthink: Reproducing Recursive Language Models

이 논문은 외부 REPL 환경에서 프롬프트를 처리하는 재귀적 언어 모델 (RLM) 을 재현한 결과, 재귀 깊이를 1 로 유지할 때는 복잡한 추론 성능이 향상되지만 깊이를 2 로 늘리거나 단순 검색 작업에 적용하면 모델이 과도하게 사고하여 성능이 저하되고 실행 시간 및 비용이 기하급수적으로 증가하는 '과도한 사고 (overthinking)' 현상을 발견했습니다.

Daren Wang2026-03-04💬 cs.CL

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

이 논문은 Nsys/NCU 기반의 검증과 루브릭 기반의 에이전트 강화학습을 통해 커널 생성부터 호스트 측 설정까지의 전체 GPU 프로그램 생성을 자동화하고, KernelBench 에서 100% 에 가까운 성공률과 기존 모델 대비 최대 2.73 배의 속도 향상을 달성한 'StitchCUDA' 프레임워크를 제안합니다.

Shiyang Li, Zijian Zhang, Winson Chen + 3 more2026-03-04💬 cs.CL

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

이 논문은 약한 진실 신호와 조작 위험 하에서 집단적 판단의 신뢰성을 확보하기 위해, 에이전트와 의견의 동적 신뢰도 점수를 학습하여 영향력을 재분배하는 '신용 거버넌스 (Credibility Governance)' 메커니즘을 제안하고, 이를 시뮬레이션 환경에서 기존 방식보다 우수한 회복력과 강건성을 입증했습니다.

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

이 논문은 단일 모달리티로 해결 가능한 단축형 질문의 문제를 해결하고, 이미지·텍스트·교차모달 성분을 분리하여 평가하는 다차원 항목반응이론 프레임워크 (M3IRT) 를 제안함으로써 다중모달 대형 언어 모델의 교차모달 추론 능력을 보다 신뢰성 있게 측정하고 벤치마크의 효율성을 높이는 방법을 제시합니다.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

이 논문은 다국어 추론에서 발생하는 콘텐츠 편향을 줄이기 위해 삼단논법을 표준 논리 표현으로 변환하고 결정론적 파싱을 적용하는 새로운 방법을 제안하며, SemEval-2026 태스크 11 에서 모든 하위 작업 상위 5 위를 기록함과 동시에 복잡한 미세 조정이나 활성화 수준 개입 없이도 경쟁력 있는 대안을 제시합니다.

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong + 2 more2026-03-04💬 cs.CL