cs.CV 편의 논문 | Gist.Science

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

이 논문은 대규모 자기지도 학습으로 훈련된 비전 기반 모델인 DINOv3 를 블루베리 수확 로봇의 시각 작업에 적용한 결과, 분할 작업에는 효과적이지만 검출 및 군집 인식에는 공간적 구조와 스케일 변이로 인해 한계가 있음을 규명하여, 이를 하류 작업의 공간 모델링과 정합된 의미적 백본으로 활용해야 함을 제시합니다.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

이 논문은 Video Diffusion Transformers 가 텍스트 기반 운동 개념을 어떻게 비디오로 변환하는지 이해하기 위해, 그라디언트 계산 없이 운동과 비운동 개념 모두에 대한 시공간적 국소화 맵을 생성하는 새로운 해석 가능한 방법론 (GramCol 및 IMAP) 을 제안합니다.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

이 논문은 SFT 와 RL 의 시너지를 극대화하고 정책 엔트로피 기반의 동적 조정 및 그라디언트 외과 기법을 도입하여 GUI 에이전트의 지속적인 학습 성능을 향상시키고, 이를 평가하기 위한 AndroidControl-CL 벤치마크를 제안하는 CGL 프레임워크를 소개합니다.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

이 논문은 고차원 이미지 데이터에 대한 국소적 차분 프라이버시 (LDP) 의 실용성 문제를 해결하기 위해 픽셀 값을 비트 평면으로 분해하고 지각적 왜곡 및 최적화된 예산 할당을 결합한 경량화 프레임워크 'LDP-Slicing'을 제안하여, 기존 방법보다 뛰어난 유틸리티를 보장하면서도 엄격한 프라이버시를 유지하는 것을 목표로 합니다.

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

이 논문은 배양 과정 없이 현미경 이미지와 딥러닝을 활용해 수질 안전을 98% 이상 빠르게(\$0.44) 진단하는 'DeepScope' 시스템을 개발하여 기존 테스트의 시간과 비용 문제를 해결하고 높은 정확도를 입증했습니다.

Sanjay Srinivasan2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

이 논문은 학습 중 업데이트 규칙을 동적으로 선택하는 확률적 메타 옵티마이저 'OptiRoulette'를 제안하며, CIFAR-100 등 다양한 이미지 분류 작업에서 기존 AdamW 대비 최대 5.3 배 빠른 수렴 속도와 더 높은 정확도를 달성하는 것을 입증합니다.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

이 논문은 확산 모델과 흐름 매칭을 위한 통일된 선형 표현을 제안하고, 기존 모델에서 노이즈 데이터와 예측 목표 간의 상관관계가 약할 수 있음을 이론적으로 분석하여 학습 과정에 미치는 영향을 규명합니다.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

이 논문은 오차 역전파 없이 고차원 리저브 동역학과 국소 헤비안 프로토타입 읽기출을 결합하여, 손상된 훈련 데이터 없이도 MNIST-C 와 같은 다양한 왜곡에 대해 강인한 이미지 분류를 가능하게 하는 RECAP 알고리즘을 제안합니다.

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

이 논문은 확산 모델의 프루닝 기반 학습 제거 방식이 제거된 개념의 위치 정보를 누출시켜 데이터나 재학습 없이도 개념을 부활시킬 수 있는 치명적인 취약점이 있음을 발견하고, 이를 방어하기 위한 안전한 프루닝 메커니즘을 제안합니다.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

이 논문은 사용자가 직접 상호작용하지 않는 배경에서 발생하는 물체 상태 변화를 탐지하기 위해 새로운 벤치마크 'ObjChangeVR-Dataset'과 시점 인식 및 시간 기반 검색을 결합한 'ObjChangeVR' 프레임워크를 제안합니다.

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

이 논문은 BMIRDS-LUAD 데이터셋을 기반으로 베이지안 최적화 기반의 교란 충실도 (Perturbation Fidelity) 점수와 마진 일관성 프레임워크를 도입하여 침습성 폐선암의 아형 분류 정확도를 획기적으로 향상시키고 외부 벤치마크에서도 우수한 일반화 성능을 입증한 딥러닝 연구입니다.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

이 논문은 최종 정답의 정확성뿐만 아니라 시각적 증거에 기반한 추론 과정 자체의 정합성을 강화하여 할루시네이션을 줄이고 시각적 추론의 신뢰성을 높이는 PaLMR 프레임워크를 제안합니다.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

이 논문은 고정된 ConvNeXt 백본과 제안된 특징 보정 블록 (FCB) 을 활용하여 다중 스펙트럼 항공 영상에서 잡초 분할의 정확도를 85% 이상으로 높이면서도 학습 시간과 메모리 요구 사항을 크게 줄인 경량 모델 FCBNet 을 소개합니다.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

이 논문은 실패 경험과 전문가 튜토리얼 영상을 결합한 '반성 - 재시도' 패러다임을 통해 비전 - 언어 모델 (VLM) 이 게임 플레이에서 시각적 경험을 내면화하고 전략을 개선할 수 있음을 입증하는 종합적인 벤치마크 'GameVerse'를 제안합니다.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

이 논문은 전체 슬라이드 이미지 진단에서 주의 기반 다중 인스턴스 학습의 불안정성, 과적합, 과도한 집중 문제를 해결하기 위해 앵커 모델과 정규화 시그모이드 함수를 도입한 ASMIL 프레임워크를 제안하고, 이를 통해 기존 방법론보다 성능을 크게 향상시켰음을 보여줍니다.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

이 논문은 데이터 증강의 기하학적 제약을 고려하여 각기 다른 단일 변환으로 학습된 전문가 모델들의 앙상블인 'EnsAug'을 제안함으로써, 기존 단일 모델 접근법보다 뛰어난 성능과 효율성을 입증했습니다.

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

이 논문은 기존 작업 간 간섭과 메모리 비용을 해결하기 위해 메타 학습 기반 정규화와 인과적 보조 감독을 통해 토큰 생성을 동적으로 제어하는 'HyperTokens'을 제안하여, 지속적인 비디오 - 언어 이해에서 망각을 줄이고 성능을 향상시키는 방법을 제시합니다.

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

이 논문은 객체 간의 관계를 포착하여 공간 추론 능력을 향상시키기 위해 입력 이미지에 장면 그래프를 오버레이하는 새로운 비주얼 프롬핑 기법인 'Graph-of-Mark(GoM)'을 제안하고, 이를 통해 멀티모달 언어 모델의 제로샷 성능을 최대 11% 포인트까지 개선했음을 입증합니다.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

이 논문은 전역 시간 인덱스를 활용한 순차-병렬 3D 위치 인코딩 (Causal-RoPE SP) 과 연산 융합 기법을 도입하여 Diffusion Transformer 기반 비디오 생성 모델의 메모리 병목과 지연 시간을 해결하고, 480P 5 초 영상 생성 시 1.58 배의 속도 향상과 실시간 추론을 가능하게 합니다.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

이 논문은 의료 분야에서는 체인 오브 씽킹 (CoT) 프롬프팅이 오히려 성능을 저하시키는 '의료 지각 병목' 현상이 발생함을 발견하고, 이를 해결하기 위해 영역 관심사 힌트와 고품질 텍스트 안내를 활용한 훈련 없는 추론 시 그라운딩 개입이 정확도를 향상시킨다는 것을 제시합니다.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

← 이전 다음 →