cs.CV 편의 논문 | Gist.Science

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

이 논문은 텍스트-이미지 확산 모델의 미세 조정을 위해 REINFORCE 의 분산 감소 기법과 PPO 의 견고함을 결합하여 샘플 효율성과 최종 성능 간의 균형을 개선한 새로운 강화 학습 방법인 'LOOP(Leave-One-Out PPO)'를 제안합니다.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

이 논문은 사전 학습된 가우시안 프로세스 모델로 생성된 해부학적 랜드마크를 통합한 새로운 토큰화 방식과 트랜스포머 기반의 기하학적 딥러닝 모델을 제안하여, 고비용 침습적 PET 스캔 없이도 알츠하이머병 진단 및 중위험군의 뇌 아밀로이드 양성 예측 정확도를 향상시켰습니다.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

이 논문은 기존 아바타 시스템의 한계를 극복하고, 가우시안 도메인 적응 (GDA) 기술을 통해 사용자의 셀카를 기반으로 신원 정보를 유지하면서 2 차 스타일을 적용하는 '듀얼 스타일라이제이션' 방식을 통해 모바일 기기에서 실시간으로 애니메이션이 가능한 3D 아바타를 즉시 생성하는 'Snapmoji' 시스템을 제안합니다.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

이 논문은 텍스트 기반 3D 실내 장면 생성의 평가 한계를 극복하기 위해 명시적 요구사항과 암묵적 기대치를 모두 측정하는 'SceneEval' 프레임워크와 500 개 텍스트 설명으로 구성된 벤치마크 'SceneEval-500'을 제안하고, 이를 통해 기존 생성 방법들의 성능을 다각도로 평가하여 개선 방향을 제시합니다.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

이 논문은 기존 모델의 임베딩과 강력하게 정렬하는 제약이 새로운 모델의 판별력을 저하시킨다는 문제를 해결하기 위해, 오래된 특징 프로토타입에 노이즈를 추가하여 정렬 제약을 완화하는 '프로토타입 교란' 기법을 제안함으로써 역호환성 학습의 성능을 향상시켰습니다.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

이 논문은 비동기적인 2D 구조 정렬과 물리적 충돌이 없는 3D 확산 모델을 통합하여, 단일 이미지에서의 양손 재구성 시 발생하는 복잡한 오목과 관통 문제를 해결하고 정밀한 상호작용 복원을 가능하게 하는 새로운 접근법을 제안합니다.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

Point-based Instance Completion with Scene Constraints

이 논문은 기존 방법의 한계를 극복하고 장면 내 객체의 불완전한 스캔을 정밀하게 복원하기 위해 장면 제약 조건을 통합한 새로운 포인트 클라우드 기반 인스턴스 완성 모델과 이를 평가하기 위한 새로운 데이터셋 ScanWCF 를 제안합니다.

Wesley Khademi, Li Fuxin2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

이 논문은 EEG 기반 감정 인식의 안정성과 정확도를 향상시키기 위해 Lipschitz 연속성 제약을 적용한 앙상블 학습 프레임워크인 LEL 을 제안하고, 여러 공개 데이터셋에서 기존 방법보다 우수한 성능을 입증했습니다.

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

이 논문은 GPS 가 제한된 도시 환경에서 모바일 플랫폼의 자원 제약을 극복하기 위해, 다중 카메라 시스템이 비유용한 특징을 제거하고 중복성을 최소화하는 O-VIB 인코더를 통해 경량화된 시각적 특징을 에지 서버로 전송하여 정밀한 로컬라이제이션을 수행하는 작업 지향적 의미 압축 프레임워크를 제안합니다.

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

이 논문은 방사선 노출을 줄이면서도 고품질 CBCT 영상을 재구성하기 위해 다중 뷰 2D 및 다중 스케일 3D 특징을 통합한 DiCE 네트워크와 하이브리드 뷰 샘플링 사전 학습 (HyViP) 프레임워크를 갖춘 최초의 CBCT 재구성 기반 모델인 'DeepSparse'를 제안하고, 이를 통해 기존 방법들보다 우수한 재구성 성능을 입증했습니다.

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

이 논문은 객체 감지부터 경로 계획까지 다양한 자율 주행 작업을 지원하며 단일 차량과 다중 차량 협력 주행 연구를 위한 포괄적인 벤치마크인 M $^3$ CAD 를 소개하고, 네트워크 대역폭 요구사항을 고려한 새로운 다단계 융합 방식을 제안하여 협력 자율 주행 시스템 개발을 촉진합니다.

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

이 논문은 키포인트 기반의 자산 및 시연 합성 기법과 KG-DAgger 알고리즘을 활용하여 의류의 변형성 문제를 해결하고, 시뮬레이션에서 학습된 폐루프 정책이 실제 환경에서 75% 의 높은 성공률을 달성하도록 한 FoldNet 프레임워크를 제안합니다.

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

← 이전 다음 →

cs.CV

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Point-based Instance Completion with Scene Constraints

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

Task-Oriented Semantic Compression for Localization at the Network Edge

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Vid2World: Crafting Video Diffusion Models to Interactive World Models

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology