cs.CV 편의 논문 | Gist.Science

Unified Medical Image Segmentation with State Space Modeling Snake

이 논문은 다중 스케일 구조적 이질성으로 인한 기존 의료 영상 분할의 한계를 극복하기 위해 상태 공간 모델을 활용한 'Mamba Snake'를 제안하여, 장기 간 위상적 관계와 미세한 윤곽 정제를 동시에 최적화함으로써 최첨단 방법론 대비 평균 3% 의 Dice 점수 개선을 달성했다고 요약할 수 있습니다.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

이 논문은 고정된 기준 뷰에 의존하지 않고 완전한 치환 등변성을 갖춘 아키텍처를 통해 카메라 포즈 및 깊이 추정 등 다양한 시각 기하학 작업에서 최첨단 성능을 달성하는 새로운 피드포워드 신경망 $\pi^3$ 를 제안합니다.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

이 논문은 X-ray 비파괴 검사에서 기존 딥러닝 방식의 한계를 극복하고, SDMSD 탐지기와 증거 기반 반성 (EGR) 도구를 LMM 에이전트가 조율하여 높은 정확도와 해석 가능성을 갖춘 신뢰할 수 있는 분석을 제공하는 'InsightX Agent' 프레임워크를 제안합니다.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

본 논문은 손실된 지상 데이터가 부족한 재해 상황에서 TASA 의 EVAP 제품을 보완하기 위해 Sentinel-2 와 Formosat-5 영상을 활용하고 PCA 기반 약지도 학습을 통해 확장된 라벨로 훈련된 비전 트랜스포머 (ViT) 기반 모델을 제안하여 재해 피해 지역 분할의 정확성과 공간적 일관성을 향상시켰음을 보여줍니다.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

이 논문은 기존 미시적 교통 시뮬레이터의 확장성 한계를 극복하고 현실적인 LiDAR 감지 능력을 추가하기 위해, 고수준 교통 데이터와 기하학적 가시성 분석을 결합한 대리 센서 모델 'MIDAR'을 제안하고 이를 통해 대규모 교통 시뮬레이션의 정밀도와 실시간성을 동시에 향상시켰음을 보여줍니다.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

이 논문은 CNN 의 국소적 특징 추출 능력과 트랜스포머의 전역적 문맥 이해 능력을 결합한 TransUNet-GradCAM 모델을 제안하여, 다양한 외부 데이터셋에서도 견고한 제로샷 성능과 높은 설명 가능성을 갖춘 당뇨병성 발궤양 자동 분할 솔루션을 제시합니다.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S $^2$ Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

본 논문은 비디오 확산 트랜스포머의 양자화 시 발생하는 긴 토큰 시퀀스로 인한 학습 난이도와 보정 분산을 해결하기 위해, 헤시안 기반의 중요 데이터 선택과 희소 어텐션 토큰 증류 기법을 도입하여 W4A6 양자화 환경에서도 손실 없는 성능을 달성하는 S $^2$ Q-VDiT 프레임워크를 제안합니다.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

이 논문은 다중 스펙트럼 원격 탐사 이미지의 스펙트럼 정보를 효과적으로 활용하여 토지 피복 추출 성능을 획기적으로 개선하고 해석 가능한 설명을 생성하는 최초의 비전 - 언어 모델인 SPEX 와 이를 학습시키기 위한 SPIE 데이터셋을 제안합니다.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

이 논문은 180 도를 초과하는 초광각 피시아이 이미지에서 3D 가우스 스플래팅의 성능을 최초로 평가하고, 기존 SfM 초기화의 한계를 극복하기 위해 UniK3D 를 활용한 깊이 기반 초기화 방법을 제안하여 160 도 시야각에서 최적의 재구성 성능을 보임을 입증합니다.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

이 논문은 소스 데이터 접근 유무에 관계없이 해부학적 지식을 명시적으로 구조화하여 도메인 간 적응을 가능하게 하는 통합된 의미 기반 프레임워크를 제안함으로써 의료 영상 분할 분야에서 기존 방법론의 한계를 극복하고 최첨단 성능을 달성합니다.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

이 논문은 비주얼 grounding 기반의 VLM 시스템에서 기존 정적 트리거 방식의 한계를 극복하고, 텍스트에 기반하여 동적으로 생성되는 은밀한 백도어 공격 기법인 IAG 를 제안하여 다양한 모델과 데이터셋에서 높은 성공률과 은폐성을 입증했습니다.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

이 논문은 긴 형식의 비디오 이해를 위해 기존 프레임 기반 접근법의 한계를 극복하고, LLM 을 활용한 능동적 메모리 에이전트가 쿼리 관련 순간을 식별하고 일관된 사건으로 그룹화하여 간결하고 신뢰할 수 있는 '이벤트 타임라인'을 생성하는 훈련 없는 프레임워크인 Video-EM 을 제안합니다.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

이 논문은 LLM 과 잠재 확산 모델을 결합하여 3D 표현의 생성, 상상, 공간적 시각 질문 답변을 통합적으로 수행하는 최초의 프레임워크인 'UniUGG'를 제안하고, 기하학적 - 의미론적 학습 전략을 통해 3D 이해 및 생성 성능을 향상시킨다는 내용입니다.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

이 논문은 확산 모델 기반 3D 인간 자세 추정에서 프레임 및 시맨틱 수준에서 불필요한 토큰을 계층적으로 제거하는 '계층적 시간 가지치기 (HTP)' 전략을 제안하여, 기존 방법 대비 추론 속도를 81.1% 향상시키면서도 최첨단 성능을 달성함을 보여줍니다.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

본 논문은 볼륨 기반과 필러 기반 방법 간의 정확도와 효율성 트레이드오프를 해결하기 위해 3D 포인트 클라우드를 2D 슬라이스로 변환하고 수직 기하학적 관계를 보존하는 '슬라이스 상호작용 네트워크 (SIN)'를 도입하여, Waymo 및 nuScenes 등 주요 데이터셋에서 높은 정확도와 효율성을 동시에 달성한 'PointSlice'를 제안합니다.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

이 논문은 분산된 의료 환경에서 다양한 MRI 모달리티와 데이터의 이질성을 해결하기 위해, 모달리티를 분해하고 기억하는 메커니즘을 도입한 새로운 연방 학습 프레임워크인 MDM-MixMFL 을 제안하여 MRI 영상 분할 성능을 향상시키는 방법을 제시합니다.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

이 논문은 YOLO 객체 감지 모델과 커스텀 차선 추정 알고리즘을 활용하여 외부 관측 기법으로 분산 및 음주 운전 등 비연결 차량의 위험 운전 행위를 실시간으로 분류하는 새로운 프레임워크를 제안하고 그 유효성을 검증합니다.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

이 논문은 7 개 해부학적 영역의 9,700 개 이상의 주석이 포함된 대규모 데이터셋으로 학습된 UltraUPConvNet 을 제안하여, 기존 AI 연구에서 분리되어 수행되던 초음파 질병 예측과 조직 분할을 단일 효율적인 프레임워크로 통합하고 우수한 성능을 달성함을 보여줍니다.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

이 논문은 불확실성이 높은 교통 환경에서 기존 사례 기반 추론의 한계를 극복하고, 다중 소스 데이터와 호기심 기반 정제 메커니즘을 활용해 명시적 검색 없이도 구조화된 사례 공간을 학습하여 자율 주행 의사결정 성능을 향상시키는 'Traffic-MLLM' 프레임워크를 제안합니다.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

본 논문은 기존 선형 어텐션의 낮은 랭크 제약과 특징 중복 문제를 해결하기 위해 입력 적응형 게이트를 도입하여 KV 특징 맵을 선택적으로 조절하는 SAGA 를 제안함으로써, 고해상도 이미지 처리 시 계산 효율성과 모델 정확도를 동시에 크게 향상시켰음을 보여줍니다.

Yuan Cao, Dong Wang2026-03-10💻 cs

← 이전 다음 →

cs.CV