cs.CV 편의 논문 | Gist.Science

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

이 논문은 CLIP 기반의 다중 레이블 클래스 증분 학습에서 발생하는 catastrophic forgetting 과 높은 오검출률을 해결하기 위해, 각 클래스별 프롬프트 공간을 분리하는 'DeCLIP' 프레임워크와 오검출률을 억제하는 'AST' 전략을 제안하여 재현 데이터 없이도 기존 방법보다 우수한 성능을 달성함을 보여줍니다.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

Beyond Flat Unknown Labels in Open-World Object Detection

이 논문은 미지의 물체를 단순히 '알 수 없음'으로만 분류하는 기존 오픈 월드 객체 탐지의 한계를 극복하고, 자율 주행 등 실용적 의사결정에 도움이 되는 계층적 의미 정보를 추론할 수 있는 새로운 탐지기 BOUND 를 제안합니다.

Yuchen Zhang, Yao Lu, Johannes Betz2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

이 논문은 비디오 확산 모델의 직관적 물리 이해 능력을 시각적 외관과 분리하여 평가하기 위해, 생성된 비디오의 물리 타당성을 확률 기반 선호도로 측정하는 훈련 없는 방법인 LikePhys 를 제안하고, 이를 통해 현재 모델들의 물리 이해 능력이 규모 확장에 따라 점진적으로 향상되고 있음을 입증합니다.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

이 논문은 구조적 전역 사전지식을 제공하는 '캔버스'와 운동 인식 샘플링 순서 등을 도입하여, 적은 샘플링 단계로도 고품질의 비디오를 생성하고 확산 기반 방법과 경쟁할 수 있는 새로운 오토레거시 비디오 예측 모델인 CanvasMAR 를 제안합니다.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

이 논문은 제한된 2D 뷰만으로도 인간과 유사한 3D 공간 상상력을 통해 추론할 수 있도록, 3D 사전 지식이나 명시적 3D 데이터 없이도 3D 잠재 공간 정합 및 결과 기반 최적화를 통해 훈련된 새로운 프레임워크인 3DThinker 를 제안합니다.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

AURASeg: Attention-guided Upsampling with Residual-Assistive Boundary Refinement for Onboard Robot Drivable-Area Segmentation

이 논문은 엣지 디바이스 배포 제약 하에서 로봇의 주행 가능 영역 분할 정확도와 경계 정밀도를 동시에 향상시키기 위해 잔여 보조 경계 정제 모듈과 주의 기반 점진적 업샘플링 디코더를 제안한 AURASeg 프레임워크를 소개합니다.

Narendhiran Vijayakumar, Sridevi. M2026-03-09💻 cs

Culture in Action: Evaluating Text-to-Image Models through Social Activities

이 논문은 기존 객체 중심의 문화적 편향을 넘어 사회적 활동과 일상적 맥락을 평가하는 새로운 벤치마크 'CULTIVATE'를 제안하고, 이를 통해 텍스트 - 이미지 생성 모델이 북반구 국가에 비해 남반구 국가의 문화를 덜 정확하게 표현하며 체계적인 편향을 보임을 규명했습니다.

Sina Malakouti, Boqing Gong, Adriana Kovashka2026-03-09💻 cs

Decoupling Bias, Aligning Distributions: Synergistic Fairness Optimization for Deepfake Detection

이 논문은 딥페이크 탐지 모델의 인종 및 성별 편향을 구조적 해리와 전역 분포 정렬을 통해 동시에 해결하여, 공정성을 향상시키면서도 탐지 정확도를 유지하는 새로운 최적화 프레임워크를 제안합니다.

Feng Ding, Wenhui Yi, Yunpeng Zhou, Xinan He, Hong Rao, Shu Hu2026-03-09💻 cs

LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

이 논문은 정확한 3D 좌표 지도 학습 대신 전역 궤적과 단안 2D 운동학적 단서를 기반으로 3D 운동 구조의 일관성을 학습하는 'LaxMotion' 프레임워크를 제안하여, 훈련 분포를 벗어난 상황에서도 뛰어난 일반화 성능을 달성함을 보여줍니다.

Sheng Liu, Yuanzhi Liang, Sidan Du2026-03-09💻 cs

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

이 논문은 생성형 AI 모델이 문화적 아이콘을 처리할 때 단순한 복제가 아닌 '인식'과 '구현'의 두 차원을 구분하는 새로운 평가 프레임워크와 '문화적 참조 변환 (CRT)' 지표를 제안하며, 모델의 행동이 학습 데이터 빈도뿐만 아니라 텍스트 고유성, 참조의 인기도, 제작 시기 등 다양한 요인에 의해 결정됨을 규명합니다.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

이 논문은 대규모 언어 모델 (LLM) 과 그리드 기반 정수 계획법을 결합하여 텍스트 프롬프트에서 구조화된 제약 조건을 추출하고, coarse-to-fine 최적화 전략을 통해 방 배치와 가구 배치를 공동으로 최적화하는 새로운 자동 인테리어 디자인 프레임워크인 'Co-Layout'을 제안합니다.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

이 논문은 중립적인 장면, 잠재적 청각적 트리거, 스타일 조절자를 결합한 모듈형 프롬프트 디자인을 통해 T2V 모델의 안전 장벽을 우회하는 새로운 재킹 프레임워크 'SPARK'를 제안하고, 이를 통해 기존 공격 대비 23% 높은 성공률을 달성했음을 보여줍니다.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

이 논문은 신생아 저자기장 MRI 의 낮은 화질을 고자기장 MRI 수준으로 향상시키기 위해 물리 법칙을 고려한 3D 조건부 확산 모델인 MRIQT 를 제안하고, 기존 방법론보다 우수한 화질 개선 및 병변 식별 능력을 입증했습니다.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

이 논문은 의료 영상 분석에서 설명 가능한 AI(xAI) 모델의 진단 근거와 주의를 평가하기 위해, 속성 기반 추론을 체계적으로 분석할 수 있도록 설계된 완전히 커스터마이징 가능한 합성 데이터셋 'FunnyNodules'을 제안합니다.

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

이 논문은 Sentinel-2 위성 영상과 기후 데이터를 결합한 대규모 벤치마크 'FireScope-Bench'와 강화 학습 및 시각적 감독을 통해 사고 과정 (Chain-of-Thought) 을 생성하며 산불 위험 지도를 예측하는 'FireScope' 모델을 제안하여, 언어 기반 추론이 시각 생성 모델의 일반화 성능과 해석 가능성을 크게 향상시킨다는 것을 입증합니다.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

← 이전 다음 →

cs.CV