GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

이 논문은 3D 가우스 스플래팅을 기반으로 반사 표면에서도 높은 정밀도의 메쉬 재구성을 가능하게 하는 재료 인식 최적화 프레임워크인 GS-2M 을 제안하며, 외부 모델 의존 없이 다중 뷰 광도 변이를 활용한 거칠기 감독 전략을 통해 신경망 구성 요소를 제거하고 고품질 삼각 메쉬를 생성합니다.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

이 논문은 비전 기반 모델 (VFMs) 을 강력한 교사 모델로 활용하여 자기 학습 패러다임 내에서 도메인 적응형 멀티 태스크 밀도 예측을 수행하는 효율적인 프레임워크인 FAMDA 를 제안하며, 이를 통해 로봇 공학 응용 분야에서 최첨단 성능을 달성하면서도 경량화된 모델을 구현합니다.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

이 논문은 양자화 및 어텐션 희소화 기법을 통합하여 비디오 생성 모델의 계산 비용과 메모리 사용량을 획기적으로 줄이면서도 성능 저하를 최소화하는 'QuantSparse' 프레임워크를 제안합니다.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

이 논문은 텍스트, 음악, 이전 모션 등 다양한 입력에 기반하여 두 사람의 상호작용적이고 반응적인 3D 모션을 생성하는 최초의 통합 프레임워크인 DualFlow 를 제안하며, 정렬 흐름 (Rectified Flow) 과 검색 증강 생성 (RAG) 기법을 활용하여 추론 속도를 높이고 의미적 정합성 및 동기화를 개선한 것을 보여줍니다.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

본 논문은 혈역학의 나비에-스토크스 방정식에서 유도된 물리 기반의 제 2 차 동적 시스템을 바탕으로, 제로 FLOPs 축 스와퍼, 적응형 공간 필터, 게이트형 TCN 을 결합한 경량 모델 PHASE-Net 을 제안하여 헤드 모션과 조명 변화 하에서도 높은 정확도와 효율성을 갖춘 원격 광용적맥파 (rPPG) 측정 솔루션을 제시합니다.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

이 논문은 안과 질환의 조기 진단과 편향 평가를 지원하기 위해 12 가지 질환과 5 가지 영상 모달리티를 아우르는 대규모 멀티모달 데이터셋 LMOD+ 와 24 개의 최신 멀티모달 대규모 언어 모델에 대한 체계적인 벤치마크 평가를 제시합니다.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

이 논문은 오토레거시 비디오 확산 모델에서 발생하는 잠재 공간의 분포 편차와 맥락 간섭 문제를 해결하기 위해, 학습 없이도 사용자가 언제든지 원하는 대상을 자유롭게 변형하고 조작할 수 있는 'DragStream'이라는 새로운 스트리밍 드래그 기반 비디오 조작 프레임워크를 제안합니다.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

본 논문은 2018 년부터 2025 년까지 뇌 영상 분야에서 라벨 없이 병변을 탐지하기 위해 적용된 비지도 딥 생성 모델 연구 33 건을 체계적으로 검토하여, 이러한 방법론의 잠재력과 방법론적 이질성 및 외부 검증 부족과 같은 한계점을 종합적으로 분석했습니다.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

본 논문은 자율주행의 하류 인식 작업 성능 향상을 위해 3D 어셋 렌더링과 세계 모델 미세 조정을 결합한 새로운 합성 데이터 생성 프레임워크인 Dream4Drive 와 대규모 3D 자산 데이터셋을 제안하여, 기존 방법론의 한계를 극복하고 다양한 훈련 조건에서 인식 모델의 성능을 효과적으로 개선함을 보여줍니다.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

본 논문은 다양한 데이터 밀도와 분포 외 (OOD) 데이터에 대한 일반화 문제를 해결하기 위해 범용 컨텍스트 모델과 인스턴스 적응형 미세 조정 (IAFT) 전략을 도입한 범용 포인트 클라우드 압축 프레임워크 'AnyPcc'를 제안하여, 기존 방법들의 한계를 극복하고 새로운 최첨단 성능을 달성함을 보여줍니다.

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

이 논문은 DINOv2 기반의 비지도 시각 표현을 활용하여 객체 범주에 구애받지 않는 시각적 반복과 구조 학습을 통해 객체 수를 추정하는 'CountFormer' 프레임워크를 제안하고, FSC-147 벤치마크에서 경쟁력 있는 성능을 보이며 표현의 질이 표본 없는 객체 수 세기에서 중요한 역할을 함을 입증합니다.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

이 논문은 인간 멘토의 논문을 기반으로 가설 수립, 실험, 논문 작성까지 수행하는 자율 AI 시스템 'Jr. AI Scientist'를 개발하고, 기존 자동화 시스템보다 높은 평가 점수를 얻은 성과를 입증하는 동시에 현재 시스템의 한계와 잠재적 위험을 종합적으로 분석하여 AI 과학 연구의 신뢰성과 지속 가능성을 위한 통찰을 제공합니다.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

이 논문은 가우시안 스플래팅 (GS) 기반 3D 재구성의 품질 평가 문제를 해결하기 위해 인간 시각 행동을 모방한 다중 거리 주관적 평가 방법을 제안하고, 입력 데이터의 다양한 불확실성을 고려한 새로운 데이터셋 (MUGSQA) 과 재구성 방법의 견고성 및 기존 평가 지표 성능을 검증하는 벤치마크를 구축했습니다.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

이 논문은 가려진 객체의 특징을 텍스트 및 시각적 단서를 통해 계층적으로 재구성하고 주의 공간 일관성을 강제하는 'CountOCC' 프레임워크를 제안하여, 기존 방법론이 실패하는 가려짐 환경에서도 최첨단 성능을 보이는 개방형 전경 객체 계수 문제를 해결합니다.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs