Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

이 논문은 아랍어 소셜 미디어의 프레임 감지 문제를 해결하기 위해, 다중 에이전트 LLM 파이프라인을 통해 신뢰도 신호를 추출하고 이를 QUBO 기반의 데이터 선별에 활용하여 아랍어 감정 예측의 정확성과 전이성을 향상시키는 새로운 약한 지도 학습 프레임워크를 제안합니다.

Rabab Alkhalifa2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

본 논문은 대규모 계산을 통해 비전 - 언어 모델 (VLM) 이 다양한 에이전트 페르소나와 상황적 프라임에 따라 물체의 affordance(행동 가능성) 를 계산할 때 어휘적 및 의미적 수준에서 현저한 편차를 보이며, 이는 고정된 세계 모델링이 아닌 동적이고 질의에 의존적인 온톨로지 투영 (JIT Ontology) 이 로봇 공학 연구에 필요함을 시사한다고 주장합니다.

Murad Farzulla2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

이 논문은 서로 다른 벤더의 대형 언어 모델로 구성된 다중 에이전트 시스템이 단일 벤더 시스템보다 임상 진단 정확도와 재현율에서 우수한 성능을 보이며, 이는 상호 보완적인 유추 편향을 결합하여 개별 모델이 놓친 정확한 진단을 도출하기 때문임을 RareBench 및 DiagnosisArena 벤치마크를 통해 입증했습니다.

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

본 논문은 200,000 건 이상의 논문과 40 만 줄의 CFD 코드로 구축된 대규모 멀티모달 지식 베이스와 엄격한 평가 벤치마크를 기반으로, 단순한 RAG 의 한계를 극복하고 구조화된 지식 그래프와 계속된 사전 학습을 통해 연소 과학 분야에 특화된 대형 언어 모델을 개발하는 통합 프레임워크를 제시합니다.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

이 논문은 LLM 에이전트의 장기 기억 관리 문제를 해결하기 위해 미래 유용성, 사실적 신뢰도, 의미적 새로움, 시간적 최근성, 콘텐츠 유형 사전 지식 등 5 가지 해석 가능한 요소를 기반으로 한 적응형 기억 허용 제어 (A-MAC) 프레임워크를 제안하며, LoCoMo 벤치마크에서 기존 시스템 대비 정밀도 - 재현율 균형을 개선하고 지연 시간을 31% 단축하는 성과를 입증했습니다.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

이 논문은 기존 벤치마크의 한계를 극복하고 AI 모델이 처음부터 끝까지 웹 애플리케이션을 개발하는 능력을 평가하기 위해 자율 브라우저 에이전트를 활용한 'Vibe Code Bench'를 제안하고, 16 개의 최첨단 모델을 평가하여 완전한 엔드 - 투 - 엔드 개발이 여전히 해결해야 할 과제임을 입증했습니다.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

이 논문은 검색 단계와 생성 단계를 통합적으로 모델링하여 검색 결과와 생성 목표 간의 의미 정렬을 확보하고, 명시적 증거 제약 메커니즘을 통해 생성 내용을 증거에 기반하도록 제한함으로써 대규모 언어 모델의 사실적 신뢰성과 검증 가능성을 향상시키는 새로운 검색 증강 생성 방법을 제안합니다.

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs