cs.CV 편의 논문 | Gist.Science

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

이 논문은 물리적 일관성을 보장하는 방사선 기반 사전 지식과 신경 연산자를 결합하여 불합리한 예측을 방지하고 연속 및 이산 스펙트럼 초해상도 성능을 향상시키는 '방사선 구조 신경 연산자 (RSNO)'를 제안합니다.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

이 논문은 기존 심층 전개 네트워크의 한계를 극복하기 위해 다중 입자도 열화 인식 모듈과 잠재 확산 모델 기반의 사전 지식을 결합하여, 블라인드 이미지 복원 작업에서 열화 제거와 고주파 텍스처 복원을 동시에 수행하는 UnfoldLDM 을 제안합니다.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

이 논문은 GNSS 신호가 차단되는 해상 환경에서 드론 군집의 시각적 탐지, 경량 다물체 추적, 삼각측량 및 가중치 확장 칼만 필터를 결합하여 해양 로봇의 실시간 안정적 위치 추적을 가능하게 하는 새로운 시스템을 제안하고 검증합니다.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

이 논문은 오프더셸 대형 모델의 추론 및 구성 능력을 활용하여 'Yo'City'라는 새로운 에이전트 프레임워크를 제안함으로써, 사용자의 맞춤형 요구를 반영하고 무한히 확장 가능한 사실적인 3D 도시 장면을 생성하는 방법을 제시합니다.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

Shortcut Invariance: Targeted Jacobian Regularization in Disentangled Latent Space

이 논문은 의료 영상 등 실제 환경에서shortcut-label 이나 shortcut-충돌 샘플 없이도, 해리된 잠재 공간에서 타겟된 아노트로픽 노이즈를 주입하여 분류기의 민감도를 정규화함으로써 OOD 일반화 성능을 획기적으로 개선하는 'Shortcut Invariance' 방법을 제안합니다.

Shivam Pal, Sakshi Varshney, Piyush Rai2026-03-10🤖 cs.LG

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

이 논문은 2D 마이크로 CT 슬라이스를 기반으로 한 심층 학습 파이프라인 'ForamDeepSlice'를 제안하여 27 종의 유공충을 95.64% 의 높은 정확도로 자동 분류하고, 실시간 분류 및 3D 슬라이스 매칭을 지원하는 대시보드를 개발함으로써 AI 기반 미고생물학 식별의 새로운 기준을 제시합니다.

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

이 논문은 2D 분할 사전 지식과 3D 일관성 감독을 결합하여 3D 점구름의 부분 분할 일반화 문제를 해결하고, 실시간으로 분할 세밀도를 조절할 수 있는 S2AM3D 모델과 대규모 고품질 데이터셋을 제안합니다.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

이 논문은 불필요한 정보로 인한 계산 오버헤드를 줄이면서도 역사적 맥락을 효과적으로 활용하기 위해 동적 맥락 샘플링과 앵커 기반 역사 압축을 결합한 'HiconAgent'를 제안하고, 이를 통해 더 작은 모델로도 기존 최첨단 모델보다 뛰어난 성능과 효율성을 달성함을 보여줍니다.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

이 논문은 이해와 생성 능력을 통합하고 오디오 - 비디오 융합을 최적화하기 위해 '지휘자 - 창작자' 아키텍처와 AR-확산 모델을 결합한 다중 모달 대화 프레임워크 MAViD 를 제안하여 자연스럽고 일관된 장기간 대화형 오디오 - 비디오 생성을 가능하게 합니다.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

이 논문은 비전 대규모 언어 모델 (VLLM) 의 깊은 층에서 기존 토큰 가지치기 방법이 무작위 제거보다 성능이 떨어지는 '정보의 소멸' 현상을 규명하고, 시각적 정보의 유효 깊이를 기반으로 무작위 가지치기를 결합한 새로운 전략을 제안하여 성능을 유지하면서 추론 효율을 극대화함을 보여줍니다.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

이 논문은 오프로드 환경의 도로 네트워크 추출을 위해 대규모 벡터 데이터셋 'WildRoad'를 공개하고, 기존 노드 중심 방식의 한계를 극복하여 경로 중심 추론을 통해 강건한 연결성을 확보하는 'MaGRoad' 프레임워크를 제안합니다.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

이 논문은 제한된 자원과 데이터 제약 하에 개발된 2 단계 생성적 데이터 증강 기법을 통해 가짜 마스크를 실제와 유사하게 변환하여 마스크 착용 얼굴 탐지 및 인식 성능을 향상시키는 방법을 제안합니다.

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

이 논문은 SALVE 라는 프레임워크를 제안하여 희소 오토인코더와 그라디언트 기반 시각화 기법을 결합해 신경망의 특징을 발견하고 검증하며, 이를 통해 모델의 가중치 공간을 정밀하게 편집하여 AI 시스템의 투명성과 제어 가능성을 높이는 방법을 제시합니다.

Vegard Flovik2026-03-10🤖 cs.LG

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

이 논문은 가림, 빠른 운동, 장기 재진입과 같은 수술 장면의 어려움으로 인해 SAM3 의 성능이 제한되는 문제를 해결하기 위해, 관련성 기반 메모리 필터링, 메모리 용량 확장, 그리고 재식별 모듈을 포함한 훈련 없는 ReMeDI-SAM3 을 제안하여 EndoVis 및 CholecSeg8k 데이터셋에서 기존 방법보다 우수한 분할 정확도를 달성함을 보여줍니다.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

이 논문은 전 세계 5 개국 1,000 명의 설문과 거리 영상 데이터를 분석하여 도시 녹지에 대한 주관적 인식과 객관적 측정치 간의 불일치를 규명하고, 인구통계학적·성격적 요인보다 거주 지역의 문화적·환경적 배경이 인식 차이를 설명하는 가장 중요한 요인임을 밝혔습니다.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

이 논문은 기초 모델과 대규모 2D 확산 모델의 강점을 결합하여, 깊이 지도를 재조명하고 입력 이미지를 증강하는 자기지도 학습 프레임워크인 'Re-Depth Anything'을 제안함으로써 단안 깊이 추정의 도메인 격차를 해소하고 정밀도와 현실감을 획기적으로 향상시킨다고 설명합니다.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

이 논문은 단일 이미지 기반 3D 의미 장면 완성 (SSC) 작업에서 가시 영역의 고신뢰도 인식과 가려진 영역의 추론 간 간섭 문제를 해결하기 위해, 가시 영역 라벨 추출 전략과 가시 - 가려진 영역 상호작용을 활용한 이중 디코더 네트워크 (VOIC) 를 제안하여 기존 방법보다 우수한 성능을 달성함을 보여줍니다.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

이 논문은 2D 패치 추출과 하이브리드 스캐닝을 활용한 다중 헤드 선택적 상태 공간 모델 (MHSSM) 과 경량 채널 MLP 를 결합하여, 기존 딥러닝 기반 MRI 초해상도 방법들보다 압도적으로 적은 계산 비용으로 높은 정확도와 해부학적 세부 정보를 유지하는 효율적인 프레임워크를 제안합니다.

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

이 논문은 자율주행 생성형 월드 모델의 발전을 촉진하기 위해 다양한 평가 데이터셋과 시각적 사실성, 궤적 타당성, 시간적 일관성, 제어 가능성 등을 종합적으로 측정하는 새로운 메트릭을 포함한 포괄적인 벤치마크 'DrivingGen'을 제안합니다.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

이 논문은 Swin Transformer 비전 인코더와 시퀀스 - 시퀀스 언어 디코더를 통합한 경량 2 단계 멀티태스크 프레임워크를 제안하여 작물 질병 시각적 질문 응답 (VQA) 에서 높은 정확도와 설명 가능성을 달성하고 PlantVillageVQA 벤치마크에서도 우수한 일반화 성능을 입증했습니다.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

← 이전 다음 →