Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

이 논문은 기존 평가 방법의 한계를 극복하고 MLLM 의 시각적 감정 인식 능력을 개방형 어휘와 다면적 맥락을 고려하여 확장 가능하게 평가하기 위한 '감정 진술 판단 (Emotion Statement Judgment)' 태스크와 자동화 파이프라인을 제안하며, 이를 통해 현재 MLLM 들의 강점과 인간 대비 약점을 규명했습니다.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

본 논문은 엔지니어링 설계의 계층적 추상화 과정을 평가하기 위해 8,006 개 이상의 문제로 구성된 'CircuitSense' 벤치마크를 제안하며, 시각적 인식과 기호적 추론 간의 심각한 격차를 규명하고 공학적 역량 평가에서 기호적 추론의 핵심적 역할을 강조합니다.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

이 논문은 OCR 기반의 글자 정확도와 스타일 분류 손실을 통해 의미 구조 잠재 공간을 구축하고, 이를 기반으로 한 잠은 확산 트랜스포머 (InkDiT) 를 도입하여 기존 방법들의 한계를 극복하고 전체 텍스트 줄에 대한 고품질 온라인 필기 생성을 가능하게 하는 'DiffInk' 프레임워크를 제안합니다.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

이 논문은 기존 지도학습 기반의 한계를 극복하고 인간 선호도와 평가 지표를 최적화하기 위해 R1 스타일의 강화 미세조정 (SMART-R1) 과 'SFT-RFT-SFT' 반복 학습 전략을 도입하여 Waymo 오픈 시뮬레이션 에이전트 챌린지에서 최상위 성능을 달성한 다중 에이전트 교통 시뮬레이션 프레임워크를 제안합니다.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

이 논문은 비디오 잠재 확산 모델의 시간적 인과성을 증류한 비디오 일관성 모델 (VCM) 을 활용하여, 자동 미분 없이도 고화질 비디오 복원 작업에서 기존 프레임 단위 이미지 기반 방법보다 뛰어난 일관성과 품질을 달성하는 최초의 제로샷 역해결사 LVTINO 를 제안합니다.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

이 논문은 DiT 기반 모델의 강력한 생성 사전 지식을 활용하기 위해 점 기반이 아닌 영역 기반 편집 패러다임을 도입하고, 개인화 어댑터와 MLLM을 결합하여 왜곡을 줄이고 일관성을 높인 DragFlow 프레임워크를 제안하며, 이를 통해 드래그 편집의 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

PHyCLIP: 1\ell_1-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

이 논문은 계층적 구조와 조합성을 동시에 효과적으로 포착하기 위해 쌍곡 공간의 곱에 1\ell_1-곱 계량을 도입한 PHyCLIP 모델을 제안하고, 이를 통해 기존 단일 공간 기반 접근법보다 우수한 성능과 해석 가능한 임베딩 구조를 입증합니다.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG