cs.CL 편의 논문 | Gist.Science

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

이 논문은 아랍어 소셜 미디어의 프레임 감지 문제를 해결하기 위해, 다중 에이전트 LLM 파이프라인을 통해 신뢰도 신호를 추출하고 이를 QUBO 기반의 데이터 선별에 활용하여 아랍어 감정 예측의 정확성과 전이성을 향상시키는 새로운 약한 지도 학습 프레임워크를 제안합니다.

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

본 논문은 LLM 을 자동 평가자로 활용할 때 동일한 입력에도 모델, 온도 설정, 평가 기준에 따라 점수 일관성이 크게 달라질 수 있음을 실증적으로 분석하여, 기업 환경에서의 신뢰성 있는 도입을 위해 모니터링과 인간-LLM 하이브리드 평가 전략의 필요성을 강조합니다.

Fiona Lau2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

본 논문은 대규모 계산을 통해 비전 - 언어 모델 (VLM) 이 다양한 에이전트 페르소나와 상황적 프라임에 따라 물체의 affordance(행동 가능성) 를 계산할 때 어휘적 및 의미적 수준에서 현저한 편차를 보이며, 이는 고정된 세계 모델링이 아닌 동적이고 질의에 의존적인 온톨로지 투영 (JIT Ontology) 이 로봇 공학 연구에 필요함을 시사한다고 주장합니다.

Murad Farzulla2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

이 논문은 서로 다른 벤더의 대형 언어 모델로 구성된 다중 에이전트 시스템이 단일 벤더 시스템보다 임상 진단 정확도와 재현율에서 우수한 성능을 보이며, 이는 상호 보완적인 유추 편향을 결합하여 개별 모델이 놓친 정확한 진단을 도출하기 때문임을 RareBench 및 DiagnosisArena 벤치마크를 통해 입증했습니다.

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

이 논문은 IMO 의 표준 해상 통신 어구 (SMCP) 를 준수하는 현실적인 해상 무전 대화를 생성하기 위해 자기 지시 (Self-Instruct) 방법론과 26 단계 검증 파이프라인을 통합하고, LoRA 를 통해 계산 효율성을 높인 AI 기반 해양 안전 솔루션을 제안합니다.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

이 논문은 LLM 출력의 품질을 평가할 때 주관적인 수치 점수 대신 '무엇이 부족한지'에 대한 자연어 피드백과 임베딩 유사도를 기반으로 한 해석 가능한 WIM(WIM) 평가 시스템을 제안하여, 기존 선호도 학습 파이프라인에 통합 가능한 더 명확하고 학습 신호가 풍부한 평가 방식을 제시합니다.

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

본 논문은 다양한 LLM 의 특성과 비용에 따라 쿼리 복잡도를 동적으로 분석하여 최적의 모델을 선택하는 지능형 라우팅 및 캐스케이딩 기법들을 체계적으로 분류하고, 효율성과 성능을 극대화하기 위한 핵심 전략과 한계를 종합적으로 고찰합니다.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

이 논문은 에이전트의 장기적 발전과 기술 전수를 위해 20 만 개 이상의 기술을 체계적으로 생성, 평가 및 연결하는 오픈 인프라 'SkillNet'을 제안하며, 이를 통해 에이전트의 성능을 크게 향상시키고 실행 단계를 줄인다는 것을 보여줍니다.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

본 논문은 200,000 건 이상의 논문과 40 만 줄의 CFD 코드로 구축된 대규모 멀티모달 지식 베이스와 엄격한 평가 벤치마크를 기반으로, 단순한 RAG 의 한계를 극복하고 구조화된 지식 그래프와 계속된 사전 학습을 통해 연소 과학 분야에 특화된 대형 언어 모델을 개발하는 통합 프레임워크를 제시합니다.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

이 논문은 추론 단계에서 수치적 불안정성을 극대화하는 손실 항을 최적화하여 생성된 이미지를 통해 기존 적대적 교란과 구별되는 새로운 방식으로 멀티모달 대규모 언어 모델의 성능을 심각하게 저하시킨다는 사실을 규명했습니다.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

이 논문은 답변이 없는 컨텍스트를 활용해 질문을 재작성하여 모호성을 줄이는 방식이 Humanity's Last Exam 벤치마크에서 gpt-5-mini 의 정확도를 0.14 에서 0.37 로 두 배 이상 향상시킨다는 것을 보여줍니다.

Michael Majurski, Cynthia Matuszek2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

이 논문은 2024 년과 2025 년의 두 시점 코퍼스 스냅샷을 비교 분석하여, 기술 도메인 정보 검색 벤치마크인 FreshStack 에서 시간적 변화가 발생하더라도 검색 모델의 성능 평가는 여전히 신뢰할 수 있음을 입증했습니다.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

이 논문은 LLM 에이전트의 장기 기억 관리 문제를 해결하기 위해 미래 유용성, 사실적 신뢰도, 의미적 새로움, 시간적 최근성, 콘텐츠 유형 사전 지식 등 5 가지 해석 가능한 요소를 기반으로 한 적응형 기억 허용 제어 (A-MAC) 프레임워크를 제안하며, LoCoMo 벤치마크에서 기존 시스템 대비 정밀도 - 재현율 균형을 개선하고 지연 시간을 31% 단축하는 성과를 입증했습니다.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

이 논문은 데이터 흐름과 동적 상호작용을 기반으로 스트리밍 LLM 에 대한 통합 정의를 제시하고 체계적인 분류 체계를 마련하여 기존 연구의 모호성을 해소하고, 관련 방법론과 실제 응용 사례를 분석하며 향후 연구 방향을 제시합니다.

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

이 논문은 대규모 언어 모델의 자연어 피드백을 활용하여 희소 보상 환경에서의 탐색 효율성을 극대화하고, 외부 비판과 그룹 내 시도를 통합하여 생성 및 정제 능력을 동시에 향상시키는 강화학습 프레임워크 'GOLF'를 제안합니다.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

이 논문은 기존 벤치마크의 한계를 극복하고 AI 모델이 처음부터 끝까지 웹 애플리케이션을 개발하는 능력을 평가하기 위해 자율 브라우저 에이전트를 활용한 'Vibe Code Bench'를 제안하고, 16 개의 최첨단 모델을 평가하여 완전한 엔드 - 투 - 엔드 개발이 여전히 해결해야 할 과제임을 입증했습니다.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

이 논문은 검색 단계와 생성 단계를 통합적으로 모델링하여 검색 결과와 생성 목표 간의 의미 정렬을 확보하고, 명시적 증거 제약 메커니즘을 통해 생성 내용을 증거에 기반하도록 제한함으로써 대규모 언어 모델의 사실적 신뢰성과 검증 가능성을 향상시키는 새로운 검색 증강 생성 방법을 제안합니다.

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

이 논문은 단일 정보 출처가 아닌 다중 소스의 증거를 통합하고 종합하는 고차원적인 정보 탐색 능력을 평가하기 위해, 실제 사용자 의도와 현실적 관심사를 반영한 동적 ODQA 벤치마크인 'iAgentBench'를 제안합니다.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

이 논문은 클라우드 API 에 의존하지 않고 오픈 가중치 모델과 로컬 하드웨어만으로 구동되며, 화학공학 열역학 과정에서 학생에게는 RAG 기반의 질문 응답을, 강사에게는 강의 분석 및 교재 인덱싱을 제공하는 'Stan'이라는 양면형 AI 도구의 설계, 구현 및 배포 경험을 제시합니다.

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics

Using Vision + Language Models to Predict Item Difficulty

이 논문은 GPT-4.1-nano 를 활용하여 시각화 리터러시 테스트 문항의 난이도를 예측한 결과, 텍스트와 이미지를 모두 활용한 멀티모달 접근법이 단일 모달 방식보다 가장 낮은 오차로 우수한 성능을 보임을 입증했습니다.

Samin Khan2026-03-06💻 cs

← 이전 다음 →