When Do Language Models Endorse Limitations on Human Rights Principles?

이 논문은 11 개의 주요 대규모 언어 모델 (LLM) 을 대상으로 24 개 인권 조항과 8 개 언어에 걸쳐 1,152 개의 시나리오를 분석한 결과, 모델들이 정치적·시민적 권리보다 경제적·사회적·문화적 권리 제한을 더 자주 수용하고, 중국어와 힌디어에서 영어나 루마니아어보다 권리 제한을 더 많이 지지하며, 프롬프트 조작에 취약하고 응답 형식 (리커트 척도 대 서술형) 에 따라 편차가 크다는 체계적 편향을 발견했다고 요약할 수 있습니다.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea + 4 more2026-03-05💬 cs.CL

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

이 논문은 장기 작업에서 LLM 에이전트의 컨텍스트 윈도우 한계를 극복하기 위해, 완전한 상호작용 기록을 외부 데이터베이스에 보관하고 요약본과 인덱스만 컨텍스트에 유지하며 강화학습을 통해 최적의 요약·아카이빙·검색 전략을 학습하는 'Memex' 메모리 메커니즘을 제안합니다.

Zhenting Wang, Huancheng Chen, Jiayun Wang + 1 more2026-03-05🤖 cs.LG

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

본 논문은 그래프 기반 검색, 반성적 프롬프트 진화를 통한 LLM 추론, 그리고 사후 일관성 강화를 결합한 3 단계 시스템을 통해 SemEval 2026 태스크 12 에서 0.95 의 정확도로 1 위를 차지한 방법론과 14 개 모델의 오류 분석을 통해 다중 레이블 인과 추론에서 발견된 체계적인 실패 모드를 제시합니다.

Nikolas Karafyllis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-05💬 cs.CL

Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

이 논문은 멀티모달 웹 에이전트의 교차모달 공격 취약점을 해결하기 위해, 모방 학습과 오라클 지도 미세 조정, 그리고 적대적 강화 학습을 결합한 '이중 모달 다단계 적대적 안전 훈련 (DMAST)' 프레임워크를 제안하여 공격 저항성과 작업 수행 효율성을 동시에 크게 향상시킨다는 내용을 담고 있습니다.

Haoyu Liu, Dingcheng Li, Lukas Rutishauser + 1 more2026-03-05🤖 cs.AI