GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

이 논문은 객체 탐지 모델의 공간적 위치 정보를 시각-언어 모델에 명시적으로 결합하여 카운팅 오류를 줄이고 추론 시간을 단축하는 'GroundCount' 프레임워크를 제안하며, 이를 통해 다양한 모델에서 카운팅 정확도를 유의미하게 향상시킵니다.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

이 논문은 현실적인 이미지 생성에서 과도한 선명도 문제를 해결하기 위해 대규모 데이터셋 (CFD), 객관적 평가 지표 (CFM), 그리고 훈련이 불필요한 색상 충실도 보정 기법 (CFR) 을 제안하여 생성된 이미지의 색상 충실도를 평가하고 개선하는 포괄적인 프레임워크를 제시합니다.

Zhengyao Fang, Zexi Jia, Yijia Zhong, Pengcheng Luo, Jinchao Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-12💻 cs

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

이 논문은 컴퓨터 과학자와 미술사가의 협업을 통해 비전 - 언어 모델이 예술적 스타일을 인식하는 메커니즘을 분석한 결과, 추출된 개념의 90% 가 미술사가들에 의해 관련성이 있다고 평가되었으며, 모델이 때로는 형식적 대비와 같은 다른 방식으로 개념을 이해하여 스타일 예측에 성공함을 밝혔습니다.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

이 논문은 자율주행 의사결정의 정확성과 물리적 근거를 강화하기 위해 미래 세계의 역학을 압축된 토큰으로 예측하는 '동역학 CoT' 방식을 도입한 새로운 주행 VLA 모델인 DynVLA 를 제안하고, 이를 통해 기존 텍스트 및 시각 CoT 방법보다 우수한 성능을 입증합니다.

Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan2026-03-12💻 cs

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

이 논문은 전통적인 열화상 기법의 한계를 극복하고 경성 물리 법칙을 준수하는 미분 가능 물리 솔버를 활용하여 3D 열 확산 장을 연속 신경장으로 파라미터화함으로써, 비파괴 검사를 위한 정량적 3D 재료 특성 재구성 및 결함 위치 파악의 정확도를 획기적으로 향상시킨 'NeFTY' 프레임워크를 제안합니다.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

이 논문은 자율주행 환경에서 차량이나 장애물로 인해 가려진 보행자의 키 포인트를 수치 분포 기반의 생성적 적대 신경망 (SDR-GAIN) 을 통해 실시간으로 정확하게 복원하는 새로운 방법을 제안하고 COCO 및 JAAD 데이터셋에서 기존 방법보다 우수한 성능과 마이크로초 단위의 추론 속도를 입증했습니다.

Honghao Fu, Yongli Gu, Yidong Yan + 3 more2026-03-11🤖 cs.AI

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

이 논문은 사전 훈련된 텍스트 - 이미지 확산 모델의 강건한 지각 능력을 활용하여 제한된 데이터로도 뛰어난 일반화 성능을 보이는 새로운 블라인드 이미지 품질 평가 방법인 DP-IQA 를 제안하고, 이를 경량화하여 다양한 자연 환경 데이터셋에서 최첨단 성능을 달성함을 보여줍니다.

Honghao Fu, Yufei Wang, Wenhan Yang + 2 more2026-03-11🤖 cs.AI

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

이 논문은 단일 인체 기반 또는 분리 모델링 방식의 한계를 극복하기 위해 인과적 상호작용 주입, 역할 진화 스캐닝, 지역적 패턴 증폭 기법을 도입한 효율적이고 효과적인 인간 - 인간 모션 생성 프레임워크인 TIMotion 을 제안하고 InterHuman 및 InterX 데이터셋에서 우수한 성능을 입증합니다.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong Liu2026-03-11💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

이 논문은 양자화와 희소화 연산에서 발생하는 불연속성 문제를 해결하기 위해 양자화를 첨가 노이즈로 모델링하고, 이를 보정하는 정교한 기울기 경로를 제공하는 통합 프레임워크를 제안하여 임의의 정밀도와 희소성 수준에서 안정적으로 신경망을 학습시키는 방법을 제시합니다.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

이 논문은 기존 데이터 축소 기법에 특징 또는 주의 주석과 같은 '우월 정보(Privileged Information)'를 추가로 합성하여 모델 학습을 보조함으로써, ImageNet-1K 등 다양한 데이터셋에서 기존 방법들의 성능을 획기적으로 향상시킨 'DRUPI' 방법을 제안합니다.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng Zhang2026-03-11🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

이 논문은 잠재 변수의 변환을 희소 성분으로 분해하여 시퀀스 데이터에서 비지도 학습을 수행함으로써, 독립적인 요인과 변환 원리를 모두 포착하는 새로운 형태의 분리된 표현을 학습하고 데이터 가능성과 근사 공변성 오류 측면에서 최첨단 성능을 달성함을 보여줍니다.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG