cs.CL 편의 논문 | Gist.Science

From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

이 논문은 코어퍼런스 해결 (coreference resolution) 이 검색 증강 생성 (RAG) 시스템의 검색 정확도와 생성 품질을 향상시키며, 특히 참조 모호성 처리 능력이 부족한 소형 모델에서 그 효과가 두드러진다는 것을 규명합니다.

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

이 논문은 오프-바이-원 덧셈 과제를 통해 언어 모델이 표준 연산에서 새로운 함수를 유추하는 '함수 유도 (function induction)' 메커니즘을 발견하고, 이것이 병렬적으로 작동하며 다양한 작업에 재사용되어 작업 수준의 일반화를 가능하게 한다는 해석 가능성 연구를 제시합니다.

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification

이 논문은 텍스트 독성 제거를 위한 평가 척도의 신뢰성 부족과 영어 중심 연구의 한계를 극복하기 위해 아랍어, 아메하르어, 중국어 등 9 개 언어를 포괄하는 최초의 종합적 벤치마크를 제시하고, 인간 평가와의 상관관계가 높은 새로운 평가 방법론과 실용적 가이드라인을 제안합니다.

Vitaly Protasov, Nikolay Babakov, Daryna Dementieva + 1 more2026-03-05💬 cs.CL

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

이 논문은 텍스트 전용 데이터셋을 시각적 프롬프트 주입 공격을 평가할 수 있는 멀티모달 형식으로 변환하는 'Text2VLM' 파이프라인을 제안하여, 현재 오픈소스 시각 언어 모델 (VLM) 이 텍스트 입력보다 시각 입력이 추가될 때 더 취약하며 정렬 (alignment) 이 부족함을 규명했습니다.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

WebDS: An End-to-End Benchmark for Web-based Data Science

이 논문은 기존 벤치마크의 한계를 극복하고 현실적인 웹 기반 데이터 과학 워크플로우를 평가하기 위해 다양한 웹사이트와 복잡한 도구 사용 능력을 요구하는 새로운 엔드투엔드 벤치마크인 'WebDS'를 제안하고, 현재 최첨단 LLM 에이전트와 인간 간에 큰 성능 격차가 있음을 입증합니다.

Ethan Hsu, Hong Meng Yam, Ines Bouissou + 9 more2026-03-05🤖 cs.AI

SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection

이 논문은 단일 관점의 분석과 환각 문제에 취약한 기존 방법을 극복하기 위해, 언어 이론 기반의 다중 에이전트 추론 엔진과 최종 판정을 위한 분리된 평가 모듈을 결합한 'SEVADE' 프레임워크를 제안하여 아이러니 감지 성능을 획기적으로 개선했음을 보여줍니다.

Ziqi Liu, Ziyang Zhou, Yilin Li + 4 more2026-03-05💬 cs.CL

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

이 논문은 LLM 의 사실적 질문 응답 능력에 대한 견고성을 평가하기 위해 이름 개체, 주석, 그리고 문맥 과부하라는 세 가지 차원의 다단계 은닉 기법을 적용한 새로운 프레임워크 'ObfusQA'와 이를 구현하는 'ObfusQAte'를 제안하며, LLM 이 은닉된 질문을 마주할 때 실패하거나 환각을 생성하는 경향이 있음을 발견했다고 요약할 수 있습니다.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

이 논문은 306 개 언어로 구성된 122 만 건 이상의 대규모 읽기 comprehension 벤치마크인 'MultiWikiQA'를 소개하고, LLM 기반 질문 생성 및 인간 평가를 통해 데이터의 품질과 다양한 언어 모델 간의 성능 격차를 입증했습니다.

Dan Saattrup Smart2026-03-05💬 cs.CL

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

이 논문은 문서 이해를 위한 비전 - 언어 모델의 계산 부하를 줄이기 위해 비텍스트 영역을 제거하고 텍스트 영역의 공간적 일관성을 강화하는 경량 토큰 가지치기 프레임워크를 제안하고, 이를 통해 계산 비용을 크게 절감하면서도 정확도를 유지함을 실험을 통해 입증했습니다.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

이 논문은 GUI 내 토글 제어의 신뢰성 문제를 해결하기 위해 현재 상태를 인식하고 추론하여 행동하는 'StaR(State-aware Reasoning)' 방법을 제안하며, 이를 통해 토글 명령 수행 정확도를 30% 이상 향상시키고 일반 에이전트 작업 성능도 개선함을 입증합니다.

Zongru Wu, Rui Mao, Zhiyuan Tian + 7 more2026-03-05🤖 cs.AI

Trust Me, I Can Convince You: The Contextualized Argument Appraisal Framework

이 논문은 설득력 평가에 있어 논증 내용뿐만 아니라 수신자의 정서와 주관적 인지 평가가 미치는 영향을 분석하기 위해 심리학의 평가 모델을 적용한 '맥락화된 논증 평가 프레임워크'를 제안하고, 역할극 기반의 새로운 어노테이션 설정을 통해 이를 검증한 'ContArgA' 코퍼스를 구축했습니다.

Lynn Greschner, Sabine Weber, Roman Klinger2026-03-05💬 cs.CL

Non-Collaborative User Simulators for Tool Agents

이 논문은 기존 시뮬레이터가 지나치게 협력적이었던 한계를 극복하고, 서비스 불가 요청, 주제 이탈, 조급함, 불완전한 발화 등 네 가지 비협력적 사용자 행동을 정교하게 시뮬레이션하여 도구 에이전트의 견고성을 평가하고 개선할 수 있는 새로운 프레임워크를 제안합니다.

Jeonghoon Shim, Woojung Song, Cheyon Jin + 2 more2026-03-05💬 cs.CL

Towards Personalized Deep Research: Benchmarks and Evaluations

이 논문은 개인화된 심층 연구 에이전트의 평가를 위해 250 개의 실제 사용자 - 작업 쿼리로 구성된 PDR-Bench 와 개인화 정렬, 콘텐츠 품질, 사실적 신뢰성을 측정하는 PQR 평가 프레임워크를 제안합니다.

Yuan Liang, Jiaxian Li, Yuqing Wang + 11 more2026-03-05🤖 cs.AI

GraphMERT: Efficient and Scalable Distillation of Reliable Knowledge Graphs from Unstructured Data

이 논문은 대규모 언어 모델의 신뢰성 부족 문제를 해결하고 해석 가능한 신경-상징 AI 를 실현하기 위해, 비정형 텍스트로부터 사실적이고 타당한 지식 그래프를 효율적으로 추출하는 소형 모델 'GraphMERT'를 제안하고 그 우수성을 입증합니다.

Margarita Belova, Jiaxin Xiao, Shikhar Tuli + 1 more2026-03-05🤖 cs.AI

The Geometry of Reasoning: Flowing Logics in Representation Space

이 논문은 대규모 언어 모델의 추론을 표현 공간 내의 기하학적 흐름으로 모델링하여, 다음 토큰 예측 학습만으로도 모델이 논리적 불변성을 내재화할 수 있음을 증명하고 기계적 이해와 인간 언어 규칙 사이의 보편적 표현 법칙을 제시합니다.

Yufa Zhou, Yixiao Wang, Xunjian Yin + 2 more2026-03-05🤖 cs.AI

Circuit Insights: Towards Interpretability Beyond Activations

이 논문은 기존 활성화 기반 분석의 한계를 극복하고 외부 모델이나 데이터셋 없이도 학습된 가중치와 구성 요소 간 상호작용을 직접 분석하여 기계적 해석 가능성을 확장하는 두 가지 새로운 방법인 WeightLens 와 CircuitLens 를 제안합니다.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri + 3 more2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

이 논문은 주석 데이터가 부족한 시각적 추론 도메인 (예: 차트, 문서, 웹페이지) 에서 소량의 시드 질문을 원시적 요소로 분해하고 재조합하여 대규모 합성 데이터를 생성하고, 이를 통해 다중 모달 대규모 언어 모델의 일반화 추론 능력을 향상시키는 'COGS'프레임워크를 제안합니다.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

Annotation-Efficient Universal Honesty Alignment

이 논문은 대규모 언어 모델의 보편적 정직성 정렬을 위해 소량의 정답 주석만으로 고품질의 신뢰도 조정이 가능한 'EliCal' 프레임워크를 제안하고, 이를 검증하기 위해 대규모 벤치마크 'HonestyBench'를 공개했습니다.

Shiyu Ni, Keping Bi, Jiafeng Guo + 4 more2026-03-05💬 cs.CL

Citation Failure: Definition, Analysis and Efficient Mitigation

이 논문은 RAG 시스템의 응답 생성과 무관하게 발생하는 '인용 실패' 현상을 정의하고, 이를 분석하기 위한 벤치마크 'CITECONTROL'과 생성·주의·검색 기반 방법을 통합한 효율적 해결 프레임워크 'CITENTION'을 제안합니다.

Jan Buchmann, Iryna Gurevych2026-03-05💬 cs.CL

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

이 논문은 타오바오 비주얼 검색 시스템의 '사용자-검색 시스템 의도 불일치' 문제를 해결하기 위해 오프라인에서 대규모 모델을 활용한 잠재적 의도 마이닝과 온라인에서 실시간 의사결정을 수행하는 새로운 프레임워크 REVISION 을 제안하여 클릭 없는 요청률을 크게 감소시켰음을 보여줍니다.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

← 이전 다음 →