ActMem: Bridging the Gap Between Memory Retrieval and Reasoning in LLM Agents

이 논문은 LLM 에이전트의 기억 검색과 추론 간 격차를 해소하기 위해, 비구조화된 대화 기록을 구조화된 인과 그래프로 변환하고 반사실 추론을 통해 잠재적 제약과 충돌을 해결하는 새로운 실행 가능 기억 프레임워크 'ActMem'과 이를 평가하기 위한 데이터셋을 제안합니다.

Xiaohui Zhang, Zequn Sun, Chengyuan Yang + 3 more2026-03-03💬 cs.CL

EPPCMinerBen: A Novel Benchmark for Evaluating Large Language Models on Electronic Patient-Provider Communication via the Patient Portal

이 논문은 요네이브 병원 환자 포털의 1,933 개 문장을 기반으로 코드 분류, 하위 코드 분류, 증거 추출이라는 세 가지 하위 작업을 통해 대규모 언어 모델의 전자적 환자 - 의료진 소통 분석 능력을 평가하는 새로운 벤치마크인 'EPPCMinerBen'을 제시하고, 지시 미세 조정된 대형 모델이 특히 증거 추출 및 세밀한 추론에서 우수한 성능을 보임을 입증합니다.

Samah Fodeh, Yan Wang, Linhai Ma + 3 more2026-03-03💬 cs.CL

Embracing Anisotropy: Turning Massive Activations into Interpretable Control Knobs for Large Language Models

이 논문은 대규모 언어 모델의 비등방적 특성을 가진 거대 활성화 차원을 단순한 노이즈가 아닌 해석 가능한 기능 단위로 간주하여, 이를 식별하고 조종함으로써 도메인 적응 및 재일방화 시나리오에서 기존 방법보다 우수한 성능을 달성하는 새로운 접근법을 제시합니다.

Youngji Roh, Hyunjin Cho, Jaehyung Kim2026-03-03💬 cs.CL

How effective are VLMs in assisting humans in inferring the quality of mental models from Multimodal short answers?

이 논문은 멀티모달 단답형 응답을 통해 학생의 정신 모델 품질을 추론하는 MMGrader 접근법을 제안하고, 현재 최첨단 VLM 들이 인간 수준의 성능에는 미치지 못하지만 (약 40% 정확도) 정확도가 향상되면 교사가 전체 학급의 개념 이해도를 효율적으로 파악하고 맞춤형 지도 전략을 수립하는 데 강력한 보조 도구로 활용될 수 있음을 시사합니다.

Pritam Sil, Durgaprasad Karnam, Vinay Reddy Venumuddala + 1 more2026-03-03💬 cs.CL

Iterative LLM-based improvement for French Clinical Interview Transcription and Speaker Diarization

본 논문은 자발적인 프랑스어 임상 대화의 전사 및 화자 분리 정확도를 향상시키기 위해 화자 인식과 단어 인식을 교차하는 다중 패스 LLM 후처리 아키텍처를 제안하고, 자살 예방 상담 및 각성 뇌수술 상담 데이터를 통해 통계적으로 유의미한 성능 개선과 오프라인 임상 배포 가능성을 입증했습니다.

Ambre Marie, Thomas Bertin, Guillaume Dardenne + 1 more2026-03-03⚡ eess

RLShield: Practical Multi-Agent RL for Financial Cyber Defense with Attack-Surface MDPs and Real-Time Response Orchestration

이 논문은 금융 사이버 방어를 위해 공격 표면 마르코프 결정 과정 (MDP) 을 기반으로 한 다중 에이전트 강화 학습 프레임워크 'RLShield'를 제안하며, 이는 실시간 대응 조율과 비용 민감한 목적 함수를 통해 정적 규칙 기반 접근법보다 위협 격리 시간을 단축하고 비즈니스 중단 비용을 최소화하는 것을 목표로 합니다.

Srikumar Nayak2026-03-03💬 cs.CL

From Prerequisites to Predictions: Validating a Geometric Hallucination Taxonomy Through Controlled Induction

이 논문은 GPT-2 에서 통제된 유도를 통해 수행한 실험을 통해, 토큰 수준의 의사반복 (pseudoreplication) 이 통계적 유의성을 과장한다는 사실을 규명하고, 중심 이탈 (Type 1) 과 잘못된 수렴 (Type 2) 은 구분되지 않지만 매개변수 크기보다는 노름 (norm) 의 크기에 의해 특징지어지는 커버리지 갭 (Type 3) 할루시네이션이 가장 기하학적으로 뚜렷한 실패 모드임을 입증했습니다.

Matic Korun2026-03-03💬 cs.CL

Distribution-Aware Companding Quantization of Large Language Models

이 논문은 단일 토큰 예측 대신 여러 개의 미래 토큰을 동시에 예측하도록 언어 모델을 학습시킴으로써, 추가적인 훈련 시간 없이 코딩 및 추론 능력과 추론 속도를 크게 향상시키는 방법을 제안합니다. *(참고: 제공된 제목 "Distribution-Aware Companding Quantization..."과 초록 내용 "Multi-token prediction..." 사이에 불일치가 있어, 초록의 핵심 내용인 '멀티 토큰 예측'에 기반하여 요약하였습니다.)*

Athul Radhakrishnan, Siddhant Mohan, Mahima Sachdeva2026-03-03💬 cs.CL

LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

이 논문은 대규모 언어 모델 (LLM) 을 활용해 라벨링된 의료 소견 데이터를 자동 생성하고, 이를 통해 시각적 사실 식별과 보고서 생성을 분리하는 'Fact-Flow' 프레임워크를 제안함으로써 의료 보고서 생성 시 발생하는 사실적 불안정성을 해결하고 정확도를 획기적으로 향상시켰음을 보여줍니다.

Cunyuan Yang, Dejuan Song, Xiaotao Pang + 7 more2026-03-03💬 cs.CL