cs.CV 편의 논문 | Gist.Science

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

이 논문은 오디오와 텍스트 정보를 동기화하여 감정과 전신 움직임을 자연스럽게 생성하는 새로운 확산 기반 프레임워크인 ExpGest 를 제안하며, 기존 방법들의 한계를 극복하고 더 표현력 있고 제어 가능한 화자 제스처를 구현함을 보여줍니다.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

이 논문은 연속적인 특징에 의존하는 기존 딥러닝의 한계를 극복하고, 시각적 원리를 기반으로 이미지를 재구성하여 고수준 구조적 설명을 학습하는 신경기호 시스템을 제안하며, 조직학적 이미지 이상 진단에서 기존 딥러닝보다 높은 분류 정확도와 투명성을 입증했습니다.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

이 논문은 각 샘플의 생성 난이도에 따라 고정된 확산 궤적이 아닌 입력 적응형 생성 역학을 도입하여, 생성 품질을 유지하면서 평균 샘플링 단계를 줄일 수 있음을 증명합니다.

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

이 논문은 NASA 의 Landsat 및 Sentinel-2 데이터를 기반으로 학습된 Prithvi-EO-2.0 이 이전 모델과 다른 기존 지리공간 기초 모델들보다 다양한 원격 탐사 작업에서 뛰어난 성능을 보이며, 재난 대응 및 토지 피복 매핑 등 다양한 분야에 적용 가능한 오픈소스 지리공간 기초 모델임을 제시합니다.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

이 논문은 이미지 인코더와 LLM 을 공동으로 최적화하여 불필요한 시각 토큰을 줄이고 폐기된 정보를 재활용하는 새로운 토큰 병합 전략인 iLLaVA 를 제안함으로써, 기존 방법론의 한계를 극복하고 처리량과 효율성을 획기적으로 향상시켰음을 보여줍니다.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

이 논문은 다양한 멀티모달 작업에 적용 가능한 참조 없는 포괄적 평가 지표인 HarmonicEval 과 이를 검증하기 위한 18,000 개의 인간 평가 데이터로 구성된 MMHE 벤치마크를 제안하여, 기존 지표보다 인간 판단과의 상관관계가 높고 세부 기준별 점수를 제공하는 것을 입증합니다.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

이 논문은 기하학적 지도와 대비 손실, 그리고 계층적 문맥 인식 모듈을 통해 3D 객체 표면에 언어 정보를 정밀하게 정렬함으로써 기존 방법보다 우수한 2D/3D 분할, 제거 및 편집 성능을 달성하는 'LangSurf'를 제안합니다.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

이 논문은 사전 학습된 비전 - 언어 모델 (VLM) 을 활용하여 시각적 술어 (predicates) 를 추출하고 최적화 기반 학습을 통해 추상적 심볼릭 세계 모델을 구축함으로써, 제한된 짧은 시퀀스 데모만으로도 다양한 물체, 배경, 그리고 훈련 시 보지 못한 긴 시간 범위의 새로운 목표에 대해 제로샷 일반화가 가능한 로봇 의사결정 시스템을 제안합니다.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

이 논문은 잠재 공간 클러스터링을 기반으로 결정 경계 근처의 핵심 데이터 샘플을 선별하거나 생성하여, 반지도 적대적 학습 (SSAT) 의 데이터 요구량과 계산 비용을 획기적으로 줄이면서도 강력한 적대적 견고성을 유지하는 효율적인 방법을 제안합니다.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

이 논문은 베이지안 규칙에 기반하여 무조건부 사전 훈련된 확산 모델과 가우시안 사전 분포를 활용한 MAP 기반 유도 항 추정 기법을 제안함으로써, 초해상도 및 이미지 복원 등 다양한 역문제에서 기존 최첨단 방법보다 더 우수한 구조 보존과 일관성을 달성하는 문제-무관형 확산 모델을 개발했습니다.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

이 논문은 전문가 시연과 무작위 탐색을 기반으로 한 예측 세계 모델을 활용하여 생성형 확산 정책을 온라인으로 계획 및 최적화하는 '생성형 예측 제어 (GPC)' 프레임워크를 제안하며, 다양한 로봇 조작 작업에서 시뮬레이션과 실제 환경 모두에서 기존 행동 모방 (Behavior Cloning) 보다 뛰어난 성능을 입증합니다.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

이 논문은 복잡한 추상적 지시에 따른 대규모 미지 환경 내비게이션의 한계를 극복하기 위해 신경망 추론과 심볼릭 가이드를 결합한 신경-심볼릭 접근법 VL-Nav 을 제안하며, 실내·실외 및 실제 3D 환경에서 높은 성공률로 검증된 바 있습니다.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

이 논문은 저해상도 이미지 쌍을 활용한 자기지도 학습과 잠재 확산 기반의 구조적 표현 프롬프트 생성, 그리고 구조적 어텐션 모듈을 결합하여 상세한 구조 정보를 보존하면서 단일 이미지 노이즈 제거 성능을 극대화하는 'Prompt-SID' 프레임워크를 제안합니다.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

LaVCa: LLM-assisted Visual Cortex Captioning

이 논문은 대규모 언어 모델 (LLM) 을 활용하여 뇌의 시각 피질 뉴런이 특정 이미지에 반응하는 이유를 자연어 캡션으로 생성하고 해석하는 'LaVCa'라는 새로운 접근법을 제안하며, 기존 방법보다 더 정교하고 상세한 뇌 표현의 특성을 규명했다고 요약할 수 있습니다.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

이 논문은 BraTS 데이터셋의 다중 MRI 시퀀스를 기반으로 UNet 을 활용한 2D 및 3D 분할 결과를 가중 평균으로 융합하고 사전 학습된 ResNet50 모델에 입력하여 뇌종양 아형 분류 정확도를 99.25% 로 극대화하는 새로운 기법을 제안합니다.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

이 논문은 텍스트-이미지 확산 모델의 미세 조정을 위해 REINFORCE 의 분산 감소 기법과 PPO 의 견고함을 결합하여 샘플 효율성과 최종 성능 간의 균형을 개선한 새로운 강화 학습 방법인 'LOOP(Leave-One-Out PPO)'를 제안합니다.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

이 논문은 사전 학습된 가우시안 프로세스 모델로 생성된 해부학적 랜드마크를 통합한 새로운 토큰화 방식과 트랜스포머 기반의 기하학적 딥러닝 모델을 제안하여, 고비용 침습적 PET 스캔 없이도 알츠하이머병 진단 및 중위험군의 뇌 아밀로이드 양성 예측 정확도를 향상시켰습니다.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

← 이전 다음 →

cs.CV