Adaptive Memory Admission Control for LLM Agents

이 논문은 LLM 에이전트의 장기 기억 관리 문제를 해결하기 위해 미래 유용성, 사실적 신뢰도, 의미적 새로움, 시간적 최근성, 콘텐츠 유형 사전 지식 등 5 가지 해석 가능한 요소를 기반으로 한 적응형 기억 허용 제어 (A-MAC) 프레임워크를 제안하며, LoCoMo 벤치마크에서 기존 시스템 대비 정밀도 - 재현율 균형을 개선하고 지연 시간을 31% 단축하는 성과를 입증했습니다.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

이 논문은 기존 벤치마크의 한계를 극복하고 AI 모델이 처음부터 끝까지 웹 애플리케이션을 개발하는 능력을 평가하기 위해 자율 브라우저 에이전트를 활용한 'Vibe Code Bench'를 제안하고, 16 개의 최첨단 모델을 평가하여 완전한 엔드 - 투 - 엔드 개발이 여전히 해결해야 할 과제임을 입증했습니다.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

이 논문은 검색 단계와 생성 단계를 통합적으로 모델링하여 검색 결과와 생성 목표 간의 의미 정렬을 확보하고, 명시적 증거 제약 메커니즘을 통해 생성 내용을 증거에 기반하도록 제한함으로써 대규모 언어 모델의 사실적 신뢰성과 검증 가능성을 향상시키는 새로운 검색 증강 생성 방법을 제안합니다.

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

이 논문은 데이터 증강과 특징 향상 기법을 적용하여 전통적 분류기와 다양한 대규모 언어 모델을 비교 분석한 결과, 오픈소스 gpt-oss-20b 모델이 가장 높은 성능을 보였으며 데이터셋과 모델 간 상호작용이 혐오 발언 탐지 효율성에 결정적임을 규명했습니다.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

이 연구는 다국어 DUTA10K 데이터셋을 기반으로 Llama 3.2 와 Gemma 3 와 같은 대규모 언어 모델 (LLM) 이 기존 머신러닝 및 BERT 모델보다 40 개 이상의 복잡한 불법 카테고리 분류에서 뛰어난 성능을 보이며 온라인 마켓플레이스의 불법 콘텐츠 탐지 및 규제에 효과적임을 입증했습니다.

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

이 논문은 미국 대법원 구두 변론 기록을 기반으로 AI 가 모의 재판 훈련에서 판사들의 질문을 효과적으로 시뮬레이션할 수 있는지 검증하고, 현실성과 교육적 유용성을 평가하는 새로운 프레임워크를 제시하여 AI 모델이 질문의 다양성 부족과 아첨 성향 등 여전히 해결해야 할 과제가 있음을 밝힙니다.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

이 논문은 제미니 딥 싱크 기반의 신경-심볼릭 시스템을 활용하여 우주 끈에서 방출되는 중력파의 파워 스펙트럼에 대한 새로운 정확한 해석적 해를 도출함으로써 인공지능이 이론 물리학의 미해결 문제를 자율적으로 해결하고 수학적 발견을 가속화할 수 있음을 입증합니다.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

이 논문은 R 통계 생태계의 데이터 분포 정보를 함수 표현에 통합한 경량 검색 모델 DARE 와 이를 활용한 R 코딩 에이전트 RCodingAgent 를 제안하여, 기존 LLM 에이전트의 통계적 지식 부족과 도구 검색의 한계를 극복하고 R 패키지 검색 및 코드 생성 성능을 획기적으로 향상시켰습니다.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs