FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

이 논문은 단일 이미지부터 모노큘러 비디오까지 다양한 일상 기록을 초단위로 처리하여 고품질 3D 가우시안 스플래팅 모델을 생성하고, 추가 관측을 통해 품질을 점진적으로 향상시킬 수 있는 통합된 피드포워드 3D 아바타 재구성 프레임워크인 'FastAvatar'를 제안합니다.

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

이 논문은 기존 모델을 미세 조정하거나 보조 모델 없이도 텍스트-시각 편향과 공발생 편향을 완화하여 멀티모달 대규모 언어 모델의 환각 현상을 줄이고 시각적 근거를 강화하기 위해, 1 차 테일러 그래디언트를 활용한 그라디언트 기반 영향 인식 제약 디코딩 (GACD) 방법을 제안합니다.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

이 논문은 fMRI 데이터의 낮은 신호 대 잡음비와 텍스트 주석 부재 문제를 해결하기 위해 ROI 기반 텍스트 생성, 하이브리드 주파수 - 공간 인코더, 적응형 의미 정렬 모듈을 통합한 RTGMFF 프레임워크를 제안하여 ADHD-200 및 ABIDE 벤치마크에서 기존 방법보다 우수한 뇌 질환 진단 성능을 입증했습니다.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

이 논문은 기존 벤치마크의 한계를 극복하기 위해 구성 (composition) 과 추론 (reasoning) 능력을 포괄적이고 복잡하게 평가하는 새로운 벤치마크 'T2I-CoReBench'를 제안하고, 이를 통해 현재 텍스트 - 이미지 생성 모델들이 고도화된 구성 상황에서는 한계를 보이며 특히 암시적 요소를 추론하는 능력에서 심각한 부재를 드러낸다는 사실을 규명했습니다.

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

이 논문은 단일 이미지 기반의 새로운 뷰 합성 시 발생하는 모호성 문제를 해결하기 위해, 멀티모달 대규모 언어 모델을 활용한 참조 이미지 검색 및 증강 시스템과 플러그 앤 플레이 어댑터 모듈을 도입하여 기존 최첨단 방법보다 우수한 성능을 보이는 'UniView' 모델을 제안합니다.

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

이 논문은 데이터가 부족한 도메인에서 부분적으로 짝지어진 데이터를 활용하여 사전 훈련된 소스 도메인 확산 모델과 타겟 도메인 잠재 정렬 확산 모델을 공유 잠재 공간에서 정렬함으로써, 높은 충실도와 다양성을 갖춘 반지도 학습 도메인 번역 프레임워크인 LADB 를 제안합니다.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 6 more2026-03-03💻 cs

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

이 논문은 뇌 기능 네트워크의 계층적 위상을 고차 왜곡 없이 정밀하게 모델링하기 위해 로렌츠 모델을 기반으로 한 쌍곡선 그래프 합성곱 네트워크 (Brain-HGCN) 를 제안하고, 이를 통해 정신 질환 분류 성능을 기존 유클리드 기반 방법보다 크게 향상시켰음을 보여줍니다.

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

이 논문은 기존 평가 방법의 한계를 극복하고 MLLM 의 시각적 감정 인식 능력을 개방형 어휘와 다면적 맥락을 고려하여 확장 가능하게 평가하기 위한 '감정 진술 판단 (Emotion Statement Judgment)' 태스크와 자동화 파이프라인을 제안하며, 이를 통해 현재 MLLM 들의 강점과 인간 대비 약점을 규명했습니다.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

본 논문은 엔지니어링 설계의 계층적 추상화 과정을 평가하기 위해 8,006 개 이상의 문제로 구성된 'CircuitSense' 벤치마크를 제안하며, 시각적 인식과 기호적 추론 간의 심각한 격차를 규명하고 공학적 역량 평가에서 기호적 추론의 핵심적 역할을 강조합니다.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

이 논문은 OCR 기반의 글자 정확도와 스타일 분류 손실을 통해 의미 구조 잠재 공간을 구축하고, 이를 기반으로 한 잠은 확산 트랜스포머 (InkDiT) 를 도입하여 기존 방법들의 한계를 극복하고 전체 텍스트 줄에 대한 고품질 온라인 필기 생성을 가능하게 하는 'DiffInk' 프레임워크를 제안합니다.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs