cs.CV 편의 논문 | Gist.Science

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

이 논문은 작업 진행 상황을 명시적인 마일스톤으로 감지하고 실패 시 복구하는 'See, Plan, Rewind (SPR)' 프레임워크를 제안하여, 추가 학습 없이도 LIBERO 및 LIBERO-Plus 벤치마크에서 기존 모델보다 뛰어난 강건성과 일반화 성능을 달성함을 보여줍니다.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

이 논문은 생성된 SVG 의 렌더링 결과를 시각적으로 피드백하여 생성기와 비판가가 상호작용하는 '생성 - 검토 - 정제' 루프를 통해 텍스트 기반 SVG 생성의 품질과 복잡성을 획기적으로 향상시킨 'IntroSVG' 프레임워크를 제안합니다.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

CLoE: Expert Consistency Learning for Missing Modality Segmentation

이 논문은 결손된 모달리티가 있는 의료 영상 분할에서 전문가 간의 일관성을 제어하고 임상적으로 중요한 전경 영역에 초점을 맞춘 'CLoE' 프레임워크를 제안하여, 불완전한 입력 상황에서도 강력한 성능과 일반화 능력을 달성함을 보여줍니다.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao Li2026-03-11🤖 cs.AI

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

이 논문은 곡면 비시각 촉각 센서의 보정을 위해 일상적인 물체와의 간단한 접촉만으로 정밀한 3D 재구성을 가능하게 하는 효율적이고 물리 일관성이 있는 NLiPsCalib 프레임워크와 이를 검증한 NLiPsTac 센서를 제안합니다.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi Xiao2026-03-11💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

이 논문은 Unreal Engine 5 기반의 고충실도 시뮬레이션으로 생성된 136 개의 위성 모델을 포함하는 대규모 다중 모달 벤치마크 'SpaceSense-Bench'를 제안하여, 궤도상 자율 우주 임무를 위한 정밀한 우주선 인식 및 자세 추정 연구의 한계를 극복하고 데이터 확장성의 중요성을 입증했습니다.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

이 논문은 MLLM 의 정밀한 시각적 불일치 감지 능력을 평가하기 위한 'OddGridBench' 벤치마크를 제안하고, 커리큘럼 학습과 거리 기반 보상을 결합한 강화학습 프레임워크 'OddGrid-GRPO' 를 통해 해당 능력을 획기적으로 향상시키는 방법을 제시합니다.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

이 논문은 정적 추론을 넘어 경쟁적이고 시간 제약이 있는 환경에서의 LLM 전략적 의사결정 능력을 평가하기 위해 1 대 1 제로섬 상호작용을 기반으로 한 'STAR' 벤치마크를 제안하고, 추론의 깊이뿐만 아니라 신속한 실행 능력이 전략적 지능에 필수적임을 규명합니다.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

이 논문은 분류 작업에 국한되었던 테스트 시간 적응 (TTA) 기법을 이미지 회귀 문제로 확장하기 위해, 소스 데이터 없이도 소스 예측 지지 공간과 직교 여공간을 동시에 정렬하는 '예측 스펙트럼 보정 (PSC)'이라는 새로운 프레임워크를 제안하고 있습니다.

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy Hieu2026-03-11💻 cs

Robust Provably Secure Image Steganography via Latent Iterative Optimization

이 논문은 잠재 공간의 반복적 최적화를 기반으로 하여, 압축 및 이미지 처리와 같은 다양한 공격에 대한 견고성을 크게 향상시키면서도 정보 은닉의 증명 가능한 보안성을 유지하는 새로운 스테가노그래피 프레임워크를 제안합니다.

Yanan Li, Zixuan Wang, Qiyang Xiao, Yanzhen Ren2026-03-11💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

이 논문은 뇌졸중 평가용 CT 관류 이미징의 비정형 역문제 해결을 위해 물리 법칙과 증거론적 딥러닝을 결합하여 물리 제약 위반에 따른 불확실성을 정량화하고 정확도와 신뢰성을 동시에 향상시킨 'EPPINN' 프레임워크를 제안하고 임상 데이터에서 우수한 성능을 입증했습니다.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung Choi2026-03-11💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

이 논문은 기존 자기지도 학습의 한계를 극복하기 위해 다중 뷰 회전 증강과 균형을 기반으로 한 적대적 미니맥스 게임을 도입한 'M3GCLR' 프레임워크를 제안하여, NTU RGB+D 및 PKU-MMD 데이터셋에서 최첨단 성능을 달성한 뼈 기반 동작 인식 연구를 소개합니다.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai2026-03-11🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

이 논문은 제한된 주석과 고해상도 의료 영상 처리의 어려움을 해결하기 위해 프리컴퓨팅된 특징을 활용하고 경량화된 다중 인스턴스 학습 헤드를 결합하여, 대규모 유방 촬영 이미지 분류에서 최상의 성능을 달성하면서도 훈련 복잡성을 획기적으로 줄인 'MIL-PF' 프레임워크를 제안합니다.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko Culibrk2026-03-11🤖 cs.AI

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

이 논문은 고정된 시야각 (FoV) 에 의존하는 기존 방법의 한계를 극복하고, 이중 판별 학습과 커리큘럼 학습 전략을 통해 단일 모델만으로도 다양한 시야각과 방향 변화에 강인한 교차 뷰 지리 위치 추정 (CVGL) 을 가능하게 하는 'SinGeo'프레임워크를 제안합니다.

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao Wu2026-03-11💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

본 논문은 이벤트 카메라의 고유한 시간적 연속성을 활용하여 비주얼 지오메트리 기반 트랜스포머 (VGGT) 로부터 시공간 및 다중 뷰 기하학적 사전 지식을 3 단계 증류 전략을 통해 전이함으로써, 기존 방법론의 시간적 불일치 문제를 해결하고 정밀한 단안 깊이 추정을 가능하게 하는 새로운 프레임워크인 EventVGGT 를 제안합니다.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong2026-03-11💻 cs

Training-Free Coverless Multi-Image Steganography with Access Control

이 논문은 기존 커버리스 스테가노그래피 방법의 접근 제어 한계를 해결하기 위해, 무작위 기저 메커니즘과 잠재 벡터 융합 모듈을 도입하여 사용자별 접근 제어가 가능한 훈련 없는 확산 기반 다중 이미지 스테가노그래피 프레임워크 'MIDAS'를 제안합니다.

Minyeol Bae, Si-Hyeon Lee2026-03-11💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

이 논문은 2024 년 12 월부터 2025 년 4 월까지 진행된 ICDAR 2025 복잡한 레이아웃 문서 이미지 기계 번역 (DIMT) 경연대회에 대한 개요, 데이터셋, 작업 정의, 평가 프로토콜 및 69 개 팀의 참가 결과를 요약하고, 대규모 모델 접근법이 복잡한 레이아웃 문서 번역을 위한 유망한 패러다임을 제시함을 보여줍니다.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

이 논문은 YOLO 기반 객체 탐지 모델의 아키텍처 탐색 비용을 획기적으로 줄이기 위해, COCO-mini 데이터셋으로 학습된 1,500 개의 아키텍처와 자기 진화 메커니즘을 통해 정밀도를 높인 예측 모델을 포함한 'YOLO-NAS-Bench'라는 최초의 대리 벤치마크를 제안합니다.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao Wang2026-03-11💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

이 논문은 트랜스포머 기반의 확산 모델에 비해 계산 효율성과 훈련 속도가 월등히 뛰어난 'FCDM(Fully Convolutional Diffusion Model)'을 제안하며, 이를 통해 현대적인 합성곱 설계가 효율적인 생성 모델링을 위한 강력한 대안이 될 수 있음을 입증합니다.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

이 논문은 방향성 객체 탐지 (OBB) 의 고유한 도전 과제를 해결하면서도 실시간 효율성을 유지하는 최초의 실시간 방향성 탐지 트랜스포머인 RiO-DETR 을 제안하고, DOTA-1.0, DIOR-R, FAIR-1M-2.0 등 다양한 데이터셋에서 속도 - 정확도 균형을 크게 개선했음을 입증합니다.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

이 논문은 다양한 도메인의 문서 레이아웃 분석 (DLA) 에서 발생하는 구조적 차이를 극복하고 일반화 성능을 향상시키기 위해, 도메인 특성에 맞춰 생성된 설명적 지식을 단서로 활용하는 'PromptDLA'라는 새로운 프레임워크를 제안하고 있습니다.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

← 이전 다음 →