FCMBench: The First Large-scale Financial Credit Multimodal Benchmark for Real-world Applications

이 논문은 실제 금융 신용 업무의 프라이버시 준수 요구사항과 강건성 평가를 반영한 최초의 대규모 멀티모달 벤치마크인 'FCMBench'를 제안하고, 28 개의 최첨단 비전 - 언어 모델에 대한 평가 결과를 통해 해당 벤치마크가 현대 모델의 능력을 구분하는 데 유효함을 입증했습니다.

Yehui Yang, Dalu Yang, Fangxin Shang + 7 more2026-03-16🤖 cs.AI

AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation

본 논문은 기존 모델이 겪는 공간 추론 및 해부학적 이해의 한계를 극복하기 위해, 해부학적 구조 식별과 특징 추출을 거쳐 다양한 하위 태스크를 수행하는 2 단계 접근법을 도입한 'AnatomiX'라는 해부학 인식 기반의 다중 모달 대규모 언어 모델을 제안하고, 이를 통해 해부학 기반 진단 및 설명 생성 등 여러 태스크에서 기존 방법 대비 25% 이상의 성능 향상을 입증했습니다.

Anees Ur Rehman Hashmi, Numan Saeed, Christoph Lippert2026-03-16🤖 cs.AI

OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

이 논문은 VAE 잠재 공간에서 이미지 재구성 및 의미 학습을 동시에 최적화하여 생성과 이해라는 두 가지 작업을 모두 효과적으로 수행하는 통합 비전 인코더 'OpenVision 3'를 제안하고, 이를 통해 생성 및 다중모달 이해 작업에서 기존 CLIP 기반 모델을 능가하거나 견줄 만한 성능을 입증합니다.

Letian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie2026-03-16⚡ eess

MalURLBench: A Benchmark Evaluating Agents' Vulnerabilities When Processing Web URLs

이 논문은 LLM 기반 웹 에이전트가 악성 URL 처리 시 가지는 취약점을 평가하기 위해 10 가지 실세계 시나리오와 7 가지 악성 웹사이트 카테고리를 포함한 최초의 벤치마크인 'MalURLBench'를 제안하고, 기존 모델들의 취약성을 분석하며 경량 방어 모듈인 'URLGuard'를 소개합니다.

Dezhang Kong, Zhuxi Wu, Shiqi Liu + 8 more2026-03-16🤖 cs.AI

CCMamba: Topologically-Informed Selective State-Space Networks on Combinatorial Complexes for Higher-Order Graph Learning

이 논문은 기존 고차원 그래프 학습 방법의 확장성 및 장거리 의존성 모델링 한계를 극복하기 위해, 조합적 복합체 (Combinatorial Complexes) 상에서 선형 시간 복잡도로 작동하는 최초의 통합 Mamba 기반 신경망 프레임워크인 CCMamba 를 제안하고, 이를 통해 다양한 벤치마크에서 우수한 성능과 확장성을 입증했습니다.

Jiawen Chen, Qi Shao, Mingtong Zhou + 2 more2026-03-16🤖 cs.AI

MoHETS: Long-term Time Series Forecasting with Mixture-of-Heterogeneous-Experts

이 논문은 비정상성 및 다양한 시간적 역학을 가진 장기 다변량 시계열 예측의 과제를 해결하기 위해, 공유 심층 컨볼루션 전문가와 라우팅 푸리에 기반 전문가를 결합한 이질적 전문가 혼합 (MoHE) 레이어와 경량 디코더를 도입한 MoHETS 모델을 제안하여 기존 최첨단 모델 대비 평균 MSE 를 12% 개선한 성능을 입증합니다.

Evandro S. Ortigossa, Guy Lutsker, Eran Segal2026-03-16🤖 cs.AI

Do LLMs Share Human-Like Biases? Causal Reasoning Under Prior Knowledge, Irrelevant Context, and Varying Compute Budgets

본 논문은 20 개 이상의 대규모 언어 모델 (LLM) 과 인간을 비교한 결과, LLM 이 인간과 유사한 인과적 편향 (예: 약한 설명 배제) 을 보이지 않고 규칙 기반 추론을 보이지만, 추론 과정 (CoT) 을 거치면 관련 없는 맥락에 대한 강건성이 향상된다는 점을 규명하여 LLM 의 인과 추론 특성과 인간 편향의 상보적 관계를 제시합니다.

Hanna M. Dettki, Charley M. Wu, Bob Rehder2026-03-16🤖 cs.AI

RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis

이 논문은 엣지 디바이스에서의 온디바이스 LLM 성능을 정량화하기 위해 지붕선 모델을 기반으로 한 벤치마크 프레임워크를 제안하고, 연산 강도와 모델 깊이에 따른 성능 한계 및 효율성 함정을 분석하여 하드웨어 - 소프트웨어 공동 설계에 대한 실행 가능한 통찰을 제공합니다.

Zhen Bi, Xueshu Chen, Luoyang Sun + 4 more2026-03-16🤖 cs.AI

Asynchronous Verified Semantic Caching for Tiered LLM Architectures

이 논문은 임계값 기반의 정적 캐싱 정책의 한계를 극복하기 위해, 비동기적으로 LLM 심판기를 활용해 정적 캐시 응답을 검증하고 동적 캐시로 승격시키는 'Krites' 시스템을 제안함으로써, 임계 경로 지연을 유지하면서 정적 캐시 히트율을 최대 3.9 배까지 향상시킨다고 요약할 수 있습니다.

Asmit Kumar Singh, Haozhe Wang, Laxmi Naga Santosh Attaluri + 2 more2026-03-16🤖 cs.AI