cs.CV 편의 논문 | Gist.Science

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

이 논문은 다기관 데이터를 활용하여 단일 기관 편향을 해소하고, 유방 MRI 종양 분할 및 치료 반응 예측 모델의 일반화 능력과 하위 그룹 간 공정성을 동시에 평가하기 위해 'MAMA-MIA 챌린지'를 설계하고 그 결과를 제시한 연구입니다.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

Cross-Modal Guidance for Fast Diffusion-Based Computed Tomography

이 논문은 기존 확산 모델을 재학습시키지 않고도 쉽게 구할 수 있는 보조 영상 모달리티 (예: X 선 CT) 를 활용하여 희소 데이터로 인한 CT 재구성 품질을 획기적으로 향상시키는 크로스-모달 가이드 방식을 제안합니다.

Timofey Efimov, Singanallur Venkatakrishnan, Maliha Hossain + 2 more2026-03-03💻 cs

Certifiable Estimation with Factor Graphs

이 논문은 Shor 의 완화와 Burer-Monteiro 분해가 인수 그래프 구조를 보존한다는 통찰을 바탕으로, 기존 로봇 공학 및 컴퓨터 비전 분야에서 널리 사용되는 인수 그래프 라이브러리를 활용해 신뢰할 수 있는 전역 최적 해를 제공하는 인증 가능한 추정 시스템을 기존 국소 최적화 방법과 동일한 수준의 용이성으로 설계 및 배포할 수 있는 통합 프레임워크를 제시합니다.

Zhexin Xu, Nikolas R. Sanderson, Hanna Jiamei Zhang + 1 more2026-03-03💻 cs

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

이 논문은 자율주행의 궤적 예측 정확도를 높이고 계산 효율성을 개선하기 위해 주파수 도메인 분석과 선형 시간 상태 공간 모델을 결합한 'FoSS' 프레임워크를 제안하며, Argoverse 벤치마크에서 기존 최첨단 방법보다 높은 정확도와 낮은 연산 비용을 달성함을 입증합니다.

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

이 논문은 기존 다중 태스크 학습의 한계를 극복하기 위해 다중 수준의 디코더 간 양방향 상호작용과 불확실성 인식 적응적 조정을 도입하여 유방 초음파 영상에서 병변 분할과 조직 분류의 동시 정확도를 향상시킨 새로운 프레임워크를 제안합니다.

Abdullah Al Shafi, Md Kawsar Mahmud Khan Zunayed, Safin Ahmmed + 2 more2026-03-03🤖 cs.AI

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

이 논문은 의료 VLM 에서 RL 이 SFT 를 통해 확보된 비영구적 지원 (non-trivial support) 이 존재할 때만 유효하며, 주로 출력 분포를 정제하여 Acc@1 과 샘플링 효율성을 향상시킨다는 사실을 규명하고, 이를 바탕으로 한 경계 인식형 RL 파인튜닝 레시피를 제안합니다.

Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh + 4 more2026-03-03💻 cs

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

이 논문은 추상적인 이상 개념을 명확한 시각적 실체로 변환하고 정밀한 국소화를 가능하게 하는 세 가지 학습 가능한 시맨틱 앵커 토큰과 정렬 모듈을 도입하여 제로샷 이상 분할 성능을 획기적으로 개선한 AG-VAS 프레임워크를 제안합니다.

Zhen Qu, Xian Tao, Xiaoyi Bao + 4 more2026-03-03🤖 cs.AI

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

이 논문은 재해 후 시각적 장면 이해를 위해 지도 학습과 오픈 보카불러리 모델을 비교 평가한 결과, 레이블 공간이 고정되고 주석이 존재하는 경우 작은 객체와 복잡한 장면의 정밀한 경계 인식에 있어 지도 학습이 여전히 가장 신뢰할 수 있는 방법임을 밝혔습니다.

Anna Michailidou, Georgios Angelidis, Vasileios Argyriou + 2 more2026-03-03💻 cs

You Only Need One Stage: Novel-View Synthesis From A Single Blind Face Image

이 논문은 저해상도 또는 손상된 단일 얼굴 이미지에서 직접 3D 인식 특징을 추출하여 확산 모델을 통해 일관된 다각도 얼굴 이미지를 생성하는, 기존 2 단계 방식보다 우수한 성능을 보이는 'NVB-Face'라는 단일 단계 뉴얼 뷰 합성 방법을 제안합니다.

Taoyue Wang, Xiang Zhang, Xiaotian Li + 2 more2026-03-03🤖 cs.AI

Perspective-Equivariant Fine-tuning for Multispectral Demosaicing without Ground Truth

이 논문은 지상 기준 데이터 없이도 카메라의 투영 기하학적 특성과 사전 훈련된 기반 모델을 활용하여 고해상도 다중 분광 이미지를 복원하는 'PEFD'라는 새로운 프레임워크를 제안하여 기존 방법들의 한계를 극복하고 감독 학습 수준의 성능을 달성함을 보여줍니다.

Andrew Wang, Mike Davies2026-03-03💻 cs

MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention

이 논문은 CNN, Transformer, Mamba 의 장점을 통합한 MixerCSeg 아키텍처를 제안하여, 2.05 GFLOP 의 낮은 연산량으로 균열 분할 작업에서 최첨단 성능을 달성함을 보여줍니다.

Zilong Zhao, Zhengming Ding, Pei Niu + 2 more2026-03-03🤖 cs.AI

TIMI: Training-Free Image-to-3D Multi-Instance Generation with Spatial Fidelity

이 논문은 추가 학습 없이 사전 훈련된 이미지 -3D 모델의 공간적 사전 지식을 활용하여 인스턴스 분리 및 기하학적 안정성을 보장하는 'TIMI'라는 새로운 프레임워크를 제안함으로써, 다중 인스턴스 생성의 공간적 충실도를 획기적으로 향상시킵니다.

Xiao Cai, Lianli Gao, Pengpeng Zeng + 3 more2026-03-03💻 cs

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

이 논문은 비디오 대형 언어 모델의 비효율적인 토큰 문제를 해결하기 위해 국소 및 전역 컨텍스트를 최적 수송 (Optimal Transport) 기반으로 통합하는 'AOT'라는 새로운 토큰 축소 기법을 제안하여, 학습 없이도 계산 효율성을 크게 높이면서도 시공간적 충실도를 유지하는 것을 목표로 합니다.

Jinlong Li, Liyuan Jiang, Haonan Zhang + 1 more2026-03-03💻 cs

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

이 논문은 오픈 소스 접근성과 성능의 격차를 해소하기 위해 오디오와 비디오 잠재 토큰 간의 미세한 시간적 대응 관계를 공유 자기 주의 메커니즘을 통해 명시적으로 모델링하는 통합 엔드투엔드 확산 프레임워크인 UniTalking 을 제안하며, 이를 통해 고품질의 구두 얼굴 영상 생성과 개인화된 음성 클로닝을 가능하게 합니다.

Hebeizi Li, Zihao Liang, Benyuan Sun + 4 more2026-03-03💻 cs

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

이 논문은 연속적인 비디오 스트림에서 실시간으로 개별 소리 발생 객체를 식별하고 추적하는 최초의 온라인 오디오 - 비주얼 인스턴스 분할 프레임워크인 SeaVIS 를 제안하며, 인과적 교차 주의 융합 모듈과 오디오 기반 대비 학습 전략을 통해 기존 오프라인 방법의 한계를 극복하고 성능을 크게 향상시켰습니다.

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Unifying Language-Action Understanding and Generation for Autonomous Driving

이 논문은 언어와 행동 토큰을 공유된 이산 코드북으로 통합하고, 행동 이해 보조 목적을 도입하며, 2 단계 정밀도 향상 생성 방식을 적용하여 자율주행의 언어 - 행동 정렬성과 추론 효율성을 동시에 개선한 'LinkVLA' 아키텍처를 제안합니다.

Xinyang Wang, Qian Liu, Wenjie Ding + 7 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

이 논문은 MRI 복원 작업의 물리적 특성과 열화 구조에 따라 전역 토큰 혼합 (global token mixing) 의 유용성이 달라지므로, 데이터 일관성 제약이 강한 재구성 작업에서는 경량 CNN 기반이 경쟁력 있는 반면, 공간적 이종성 잡음 제거 작업에서는 전역 토큰 혼합 모델이 더 우수한 성능을 보인다는 점을 규명했습니다.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

이 논문은 사전 훈련된 CLIP 모델의 파라미터를 수정하지 않고 글로벌 어댑터, 국부 이상 스트림, 상호작용 퓨전 분류기를 결합한 이중 스트림 네트워크인 'Deepfake Forensics Adapter(DFA)'를 제안하여, 기존 방법 대비 DFDC 데이터셋에서 우수한 일반화 성능과 최첨단 검출률을 달성했다고 요약할 수 있습니다.

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

본 논문은 기존 이미지 중심 공격의 한계를 극복하고, 가림된 교사 강제 (masked teacher forcing) 와 거부 패널티 등을 활용한 보편적 에너지 - 지연 공격 프레임워크 'VidDoS'를 제안하여 비디오 LLM 의 추론 지연을 15 배 이상 증가시키고 자율주행 등 안전-중요 응용 분야에서 치명적인 위험을 초래할 수 있음을 입증합니다.

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

이 논문은 인간의 인지 효율성을 모방하기 위해 퍼지-트레이스 이론에 기반한 MM-Mem 을 제안하여, 멀티모달 비디오 에이전트가 장시간의 비디오를 이해할 때 발생하는 문맥 제한과 기억 한계를 해결하고, 의미 정보 병목 원리를 통해 정밀한 지각 정보를 고차원적 의미 스키마로 점진적으로 압축·추출하는 새로운 메모리 아키텍처를 제시합니다.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

← 이전 다음 →