cs.CV 편의 논문 | Gist.Science

Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

이 논문은 다중 모달 노이즈 제거를 정보 병목 관점에서 접근하여, Mamba 디코더와 정보 병목 융합 모듈을 통해 불필요한 특징을 제거하고 객체 간 특징 결합을 분리함으로써 점진적 통합 다중 모달 이상 탐지에서 발생하는 재학습 손실 (catastrophic forgetting) 문제를 해결하는 IB-IUMAD 프레임워크를 제안합니다.

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

SEP-YOLO: Fourier-Domain Feature Representation for Transparent Object Instance Segmentation

본 논문은 투명한 물체의 경계 흐림과 낮은 대비 문제를 해결하기 위해 주파수 영역 특징 강화 및 다중 공간 정제 스트림을 통합한 SEP-YOLO 프레임워크를 제안하고, Trans10K 데이터셋에 고품질 인스턴스 주석을 추가하여 투명 물체 인스턴스 분할 분야에서 최첨단 성능을 달성했습니다.

Fengming Zhang, Tao Yan, Jianchao Huang2026-03-04💻 cs

OmniFashion: Towards Generalist Fashion Intelligence via Multi-Task Vision-Language Learning

이 논문은 파편화된 패션 데이터의 한계를 극복하기 위해 대규모 패션 데이터셋 FashionX 와 이를 기반으로 구축된 범용 비전 - 언어 프레임워크 OmniFashion 을 제안하여, 패션 검색부터 대화까지 다양한 태스크를 통합적으로 수행할 수 있는 지능을 실현합니다.

Zhengwei Yang, Andi Long, Hao Li + 3 more2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

이 논문은 단일 모달리티로 해결 가능한 단축형 질문의 문제를 해결하고, 이미지·텍스트·교차모달 성분을 분리하여 평가하는 다차원 항목반응이론 프레임워크 (M3IRT) 를 제안함으로써 다중모달 대형 언어 모델의 교차모달 추론 능력을 보다 신뢰성 있게 측정하고 벤치마크의 효율성을 높이는 방법을 제시합니다.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

DREAM: Where Visual Understanding Meets Text-to-Image Generation

이 논문은 '마스킹 워밍업'과 '의미 정렬 디코딩'이라는 두 가지 핵심 기법을 통해 시각적 표현 학습과 텍스트-이미지 생성을 단일 모델로 통합한 DREAM 을 제안하며, CC12M 만으로 훈련된 이 모델이 이미지넷 선형 프로빙 정확도와 FID 등 다양한 벤치마크에서 기존 최첨단 모델들을 능가하는 성과를 거두었다고 설명합니다.

Chao Li, Tianhong Li, Sai Vidyaranya Nuthalapati + 8 more2026-03-04🤖 cs.LG

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

이 논문은 메타인지 기반 데이터 구축, 점진적 전문화 훈련 및 가상 강화 학습을 통해 이해, 사고, 계획, 생성 (UTPC) 능력을 통합한 'VisionCreator'라는 네이티브 시각 생성 에이전트 모델을 제안하고, 이를 통해 기존 대형 폐쇄형 모델보다 우수한 성능을 입증한 연구입니다.

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs

ReCo-Diff: Residual-Conditioned Deterministic Sampling for Cold Diffusion in Sparse-View CT

이 논문은 희소 뷰 CT 재구성에서 오차 누적과 불안정성을 해결하기 위해 관측 잔차 (observation residual) 를 활용한 잔차 조건부 자기 유도 샘플링을 도입한 ReCo-Diff 프레임워크를 제안하며, 이를 통해 기존 냉각 확산 모델보다 높은 재구성 정확도와 안정성을 달성함을 보여줍니다.

Yong Eun Choi, Hyoung Suk Park, Kiwan Jeon + 2 more2026-03-04💻 cs

FiDeSR: High-Fidelity and Detail-Preserving One-Step Diffusion Super-Resolution

이 논문은 예측 오차가 큰 영역을 적응적으로 강조하는 디테일 인식 가중치 전략과 재학습 없이 고주파 및 저주파를 보정하는 적응형 증강기를 통해, 기존 확산 기반 방법들보다 뛰어난 고충실도 및 디테일 보존 성능을 보이는 1 단계 확산 초해상도 프레임워크 FiDeSR 을 제안합니다.

Aro Kim, Myeongjin Jang, Chaewon Moon + 3 more2026-03-04💻 cs

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

이 논문은 CARLA 시뮬레이션 기반의 대규모 다중 에이전트 상호작용 데이터셋 구축, 4 시점 비디오의 공간적 연결 전략, 그리고 크로스 에이전트 어텐션 블록 통합을 통해 다중 에이전트 간의 상호작용을 지원하고 일관된 공유 세계 모델을 생성하는 'ShareVerse' 프레임워크를 제안합니다.

Jiayi Zhu, Jianing Zhang, Yiying Yang + 2 more2026-03-04🤖 cs.AI

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

이 논문은 임부 건강과 생식 결과를 위협하는 임신성 영양막 질환 (GTD) 의 진단 지연 및 일관성 부족 문제를 해결하기 위해, 병리 슬라이드 내 병변 분할과 진단 결론을 동시에 제공하는 시각 - 언어 기반 딥러닝 모델 'GTDoctor'와 임상 시스템 'GTDiagnosis'를 개발하여 진단 정확도와 효율성을 크게 향상시켰음을 보고합니다.

Yuhang Liu, Yueyang Cang, Wenge Que + 12 more2026-03-04🤖 cs.AI

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

이 논문은 다양한 종류의 이미지 열화를 효과적으로 복원하기 위해 사전 학습된 확산 모델에 이중 계층 혼합 전문가 (MoE) 구조를 통합하여, 열화 유형별 coarse-grained 적응과 세부 변형에 대한 fine-grained 조절을 동시에 수행하는 통합 이미지 복원 프레임워크 'MiM-DiT'를 제안합니다.

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

이 논문은 기존 생성 모델의 공간적 모호성을 해결하기 위해 입력 프롬프트에서 시각적 제약 조건을 유도하여 '그리는 방법 (How)'을 먼저 추론한 뒤 '무엇을 그릴지 (What)'를 생성하는 'CoR-Painter' 프레임워크와 듀얼-목표 GRPO 전략을 제안하여 자동회귀 이미지 생성의 공간적 일관성과 성능을 획기적으로 개선했습니다.

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

TenExp: Mixture-of-Experts-Based Tensor Decomposition Structure Search Framework

본 논문은 고정된 인수 상호작용 집합에 국한되지 않고 단일 분해나 분해의 혼합을 동적으로 선택하여 데이터의 저차원 구조를 정확하게 포착하는 새로운 무감독 텐서 분해 구조 탐색 프레임워크 'TenExp'를 제안하고, 이론적 오차 한계와 실험을 통해 그 우수성을 입증합니다.

Ting-Wei Zhou, Xi-Le Zhao, Sheng Liu + 3 more2026-03-04💻 cs

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

이 논문은 GNSS 가 없는 환경에서 교차 뷰 지오로컬라이제이션의 어려움을 해결하기 위해 공간 및 주파수 도메인의 보완적 표현을 활용하는 3-브랜치 병렬 아키텍처인 SFDE 를 제안하여, 기존 방법보다 우수한 성능과 경량화된 설계를 달성함을 보여줍니다.

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

이 논문은 원격 탐사 시각 질문 답변 (RS-VQA) 에서 발생하는 환각 현상을 해결하기 위해 사실적 오류를 진단하는 벤치마크 'RSHBench'를 제안하고, 학습 없이 주의를 기반으로 한 단계적 국소 추론을 수행하는 'RADAR'라는 추론 방법을 개발하여 다양한 멀티모달 대규모 언어 모델의 성능을 향상시켰음을 보여줍니다.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

이 논문은 실제 환경의 잠재적 클라이언트 구조를 고려하여 루트, 클러스터, 리프 세 계층에 어댑터를 배치하고 서브스페이스 기반 클러스터링을 통해 지식 공유와 개인화를 동시에 최적화하는 계층적 저랭크 적응 프레임워크인 HiLoRA 를 제안합니다.

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

이 논문은 다양한 의료 도메인, 영상 모드, 작업 유형에 걸쳐 의료 기반 모델의 성능을 체계적이고 재현 가능하게 평가하기 위해 고안된 통합 벤치마크인 UNICORN 을 소개합니다.

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

R3GW: Relightable 3D Gaussians for Outdoor Scenes in the Wild

이 논문은 야외의 자유로운 조명 조건에서 촬영된 장면을 재조명 가능하게 표현하기 위해 전경과 배경 (하늘) 을 분리하고 물리 기반 렌더링을 3D 가우시안 스플래팅에 통합한 새로운 방법인 R3GW 를 제안합니다.

Margherita Lea Corona, Wieland Morgenstern, Peter Eisert + 1 more2026-03-04💻 cs

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

이 논문은 대규모 쌍별 데이터 없이도 사용자 편집 키프레임의 의미적 안내와 원본 비디오의 운동 및 질감 정보를 결합하여, 배경과 시간적 일관성을 유지하면서 고품질의 비디오 편집을 가능하게 하는 'NOVA'라는 새로운 프레임워크를 제안합니다.

Tianlin Pan, Jiayi Dai, Chenpu Yuan + 7 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

이 논문은 고대 그리스 비평본의 복잡한 구조와 주석을 인식하기 위해 대규모 합성 데이터셋과 실사 벤치마크를 구축하고, 이를 통해 기존 오프더셸 소프트웨어를 능가하는 Qwen3VL-8B 모델을 포함한 최신 비주얼 언어 모델의 성능을 평가하여 구조 인식 기술의 한계와 가능성을 제시합니다.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs

← 이전 다음 →