cs.CV 편의 논문 | Gist.Science

Latent 3D Brain MRI Counterfactual

이 논문은 고차원 3D 뇌 MRI 데이터의 분포 외 다양성과 품질 문제를 해결하기 위해 VQ-VAE 를 통해 학습된 잠재 공간 내에서 구조적 인과 모델 (SCM) 과 일반화 선형 모델 (GLM) 을 결합한 2 단계 방식을 제안하여 고품질의 3D 뇌 MRI 반사실적 (counterfactual) 데이터를 생성하는 방법을 제시합니다.

Wei Peng, Tian Xia, Fabio De Sousa Ribeiro + 5 more2026-03-03🤖 cs.AI

MV-Adapter: Enhancing Underwater Instance Segmentation via Adaptive Channel Attention

이 논문은 복잡한 수중 환경에서 발생하는 빛 감쇠와 색상 왜곡 문제를 해결하기 위해 적응형 채널 어텐션 메커니즘을 도입한 MV-Adapter 를 제안하여 USIS-SAM 모델의 수중 인스턴스 분할 성능을 획기적으로 향상시켰음을 보여줍니다.

Lianjun Liu2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

이 논문은 다양한 멀티스펙트럼 모달리티 간의 비선형 강도 변화와 뷰포인트 차이로 인한 정합 어려움을 해결하기 위해, 자기지도 학습과 모듈러 아키텍처를 활용하여 VMamba 인코더와 3 개의 디코더 헤드를 결합한 범용 이미지 매칭 프레임워크 'XPoint'를 제안하고, 이를 통해 기존 최첨단 방법들보다 우수한 성능을 입증했습니다.

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

이 논문은 오디오와 포즈 조건을 간소화하면서도 반신 애니메이션의 생동감과 표현력을 극대화하기 위해 새로운 '에코미믹 V2(EchoMimic V2)' 프레임워크와 평가 벤치마크를 제안합니다.

Rang Meng, Xingyu Zhang, Yuming Li + 1 more2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

이 논문은 단일 모노큘러 이미지로부터 3D 포인트 클라우드를 재구성하고 이를 2D RGB 특징과 결합하여 물리적 참조물이나 다중 뷰 없이도 정확한 음식 섭취량을 추정하는 새로운 프레임워크인 MFP3D 를 제안합니다.

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

이 논문은 기존 멀티모달 언어 모델 기반의 이미지 품질 평가의 한계를 극복하기 위해 지역적 정밀도를 갖춘 'Grounding-IQA'라는 새로운 패러다임을 제안하고, 이를 위한 데이터셋 (GIQA-160K) 과 벤치마크 (GIQA-Bench) 를 구축하여 미세한 품질 평가를 가능하게 함을 보여줍니다.

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

이 논문은 불완전하거나 노이즈가 포함된 관측 데이터에서 역문제를 해결하기 위해, 데이터와 노이즈 정보를 명시적으로 통합하여 학습된 유동 매칭 (Flow Matching) 기반의 DAWN-FM 방법을 제안하고 이미지 디블러링 및 단층촬영 등 다양한 작업에서 그 효과와 강건성을 입증합니다.

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

이 논문은 대규모 언어 모델을 활용한 정교한 텍스트 설명 생성과 변형 가능한 교차 모달 상호작용을 통한 정확한 위치 파악을 결합하여, 기존 방법의 한계를 극복하고 제로샷 및 퓨샷 이상 탐지 성능을 획기적으로 향상시킨 FiLo++ 방법을 제안합니다.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

이 논문은 직교 기저에 기반한 다항식, 삼각함수, 열대 (tropical) 활성화 함수들이 초기화 기법만으로 심층 신경망의 활성화 및 기울기 폭주/소실 문제를 해결하고 GPT-2 와 ConvNeXt 와 같은 대규모 모델의 학습 효율성을 높이며 기존 모델의 미세 조정에도 효과적임을 입증합니다.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

이 논문은 1,393 명의 급성 뇌경색 환자 CT 혈관조영술 데이터를 기반으로 심층 생성 추론을 통해 병변 정보 없이도 뇌 관류 결손 지도를 분석하여 NIHSS 하위 점수의 신경 기질을 국소화하고, 기존 병변 - 결손 관계를 재현함과 동시에 새로운 신경 의존성을 발견하여 초급성기 뇌졸중의 임상적·과학적 가치 있는 표현형 분석을 가능하게 함을 보여줍니다.

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

이 논문은 CLIP 이 실제로는 속성 - 객체 결합 정보를 단모달 (텍스트 및 이미지) 임베딩 내에 보유하고 있으나, 교차모달 정렬 과정에서 이를 잃어버리는 'Bag-of-Words'와 같은 행동을 보인다는 것을 규명하고, 단순한 선형 변환을 통해 이 정보를 복원하여 재학습 없이 성능을 향상시킬 수 있음을 제시합니다.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

이 논문은 시각, 청각, 텍스트 입력을 동시에 평가하는 최초의 옴니모달 비디오 이해 벤치마크인 'WorldSense'를 소개하고, 이를 통해 기존 최첨단 모델들이 현실 세계 시나리오 이해에 여전히 큰 한계를 가지고 있음을 규명합니다.

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

이 논문은 확산 모델의 텍스트 생성에 관여하는 매개변수가 전체의 1% 미만인 어텐션 레이어에 국한되어 있음을 발견하고, 이를 정밀하게 국소화하여 텍스트 생성 성능 향상, 이미지 내 텍스트 편집, 유해 텍스트 생성 방지 등 다양한 응용 분야를 효율적으로 구현하는 방법을 제시합니다.

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

이 논문은 기존 대형 멀티모달 모델의 한계를 극복하고 적대적 공격에 대한 강건성과 도메인 간 일반화 능력을 향상시키며, hateful meme 탐지 성능과 해석 가능성을 동시에 개선하는 새로운 적응 프레임워크를 제안합니다.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

이 논문은 비전 트랜스포머 (ViT) 의 효율성을 유지하면서 정확도를 높이기 위해 패치 토큰의 너비를 줄이고, 모든 레이어에서 파라미터를 공유하는 단일의 넓은 'Jumbo' 토큰을 도입하여 계산 비용을 절감하고 다양한 작업에서 성능을 개선하는 방법을 제안합니다.

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos + 2 more2026-03-03💻 cs

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

이 논문은 아랍어와 영어의 선동성 및 혐오성 밈 탐지 및 설명 생성 성능을 획기적으로 개선하기 위해 대규모 설명 강화 데이터셋 'MemeXplain'을 구축하고, 비전 - 언어 모델을 활용한 다단계 최적화 전략을 제안합니다.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Openfly: A comprehensive platform for aerial vision-language navigation

이 논문은 실외 항공 시야에서의 시각 - 언어 항법 (VLN) 을 위한 대규모 벤치마크, 자동화 데이터 수집 도구체인, 그리고 3D 가우시안 스플래팅을 활용한 고품질 시뮬레이션 환경을 포함한 포괄적인 플랫폼 'OpenFly'와 이를 기반으로 한 에이전트를 제안합니다.

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

이 논문은 기존 모델이 직면한 긍정 및 부정 쌍의 유사도 분포 중첩 문제를 해결하기 위해 난이도 가중 대비 학습을 도입한 LLaVE 프레임워크를 제안하고, 이를 통해 7B 모델 대비 2B 모델로도 최첨단 성능을 달성하며 텍스트 - 비디오 검색 등 다양한 작업으로의 제로샷 일반화 능력을 입증했습니다.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

이 논문은 기존 MLLM 과 DeepSeek-R1 을 활용해 인간 주석 없이 고품질 다중 모달 CoT 데이터를 구축하고, 점진적 사고 억제 훈련 (PTST) 과 GRPO 를 적용하여 다중 모달 추론 능력을 강화한 'Vision-R1'모델을 제안하며, 이를 통해 MathVista 벤치마크에서 OpenAI O1 과 유사한 성능을 달성했음을 보여줍니다.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

이 논문은 의미 기반 계층적 코드북을 통해 고수준 의미 이해와 저수준 픽셀 생성 간의 균형을 달성한 통합 이미지 토크나이저 'SemHiTok'을 제안하며, 이를 통해 이미지 재구성 및 다중 모달 이해·생성 성능을 동시에 향상시켰음을 보여줍니다.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

← 이전 다음 →