cs.CV 편의 논문 | Gist.Science

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

이 논문은 DINOv2 기반의 비지도 시각 표현을 활용하여 객체 범주에 구애받지 않는 시각적 반복과 구조 학습을 통해 객체 수를 추정하는 'CountFormer' 프레임워크를 제안하고, FSC-147 벤치마크에서 경쟁력 있는 성능을 보이며 표현의 질이 표본 없는 객체 수 세기에서 중요한 역할을 함을 입증합니다.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

이 논문은 다양한 클립 간의 구조적 일관성과 시각적 연속성을 유지하며 미세 조정 없이도 자연스러운 비디오 전환을 생성하는 제로샷 방법인 SAGE(Structure-Aware Generative vidEo transitions) 를 제안하고, 기존 기법들보다 우수한 성능을 입증합니다.

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

이 논문은 생성형 AI 가 만든 이미지를 탐지하기 위해 이미지가 확산 모델에 의해 재구성될 때 나타나는 '확산 복귀 (diffusion snap-back)' 현상을 분석하여, 기존 방법보다 훨씬 높은 정확도로 합성 미디어를 식별하는 새로운 포렌식 접근법을 제시합니다.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

이 논문은 인간 멘토의 논문을 기반으로 가설 수립, 실험, 논문 작성까지 수행하는 자율 AI 시스템 'Jr. AI Scientist'를 개발하고, 기존 자동화 시스템보다 높은 평가 점수를 얻은 성과를 입증하는 동시에 현재 시스템의 한계와 잠재적 위험을 종합적으로 분석하여 AI 과학 연구의 신뢰성과 지속 가능성을 위한 통찰을 제공합니다.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

이 논문은 가우시안 스플래팅 (GS) 기반 3D 재구성의 품질 평가 문제를 해결하기 위해 인간 시각 행동을 모방한 다중 거리 주관적 평가 방법을 제안하고, 입력 데이터의 다양한 불확실성을 고려한 새로운 데이터셋 (MUGSQA) 과 재구성 방법의 견고성 및 기존 평가 지표 성능을 검증하는 벤치마크를 구축했습니다.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

이 논문은 가려진 객체의 특징을 텍스트 및 시각적 단서를 통해 계층적으로 재구성하고 주의 공간 일관성을 강제하는 'CountOCC' 프레임워크를 제안하여, 기존 방법론이 실패하는 가려짐 환경에서도 최첨단 성능을 보이는 개방형 전경 객체 계수 문제를 해결합니다.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

이 논문은 쌍곡선 공간의 기하학적 특성을 활용하여 접선 공간의 기울기를 반경 방향과 각도 방향으로 분해하고, 의미적 민감도가 높은 각도 방향의 왜곡만을 적용하여 기존 방법보다 더 높은 공격 성공률을 달성하는 'Angular Gradient Sign' 방법을 제안합니다.

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

이 논문은 이산적 그리드 기반 표현의 한계를 극복하고 연속적인 객체 경계 좌표를 활용하여 정량적 공간 계산을 가능하게 하는 'Video2Layout' 프레임워크를 제안함으로써, 멀티모달 대규모 언어 모델의 공간 추론 성능을 향상시키는 방법을 제시합니다.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

이 논문은 실제 환경에서 발생하는 RGB-D 데이터의 정렬 불일치 문제를 해결하기 위해, 다양한 차수의 매칭 메커니즘을 통해 정렬되지 않은 RGB 정보에서 가장 관련성 높은 특징을 적응적으로 추출하고 깊이 정보와 통합하는 '다차수 매칭 네트워크 (MOMNet)'를 제안하여 기존 방법들의 성능 저하를 극복하고 뛰어난 강건성을 입증합니다.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

이 논문은 복잡한 문제에는 신중한 사고를, 단순한 문제에는 직관적인 사고를 적용하여 토큰 효율성을 높이고 추론 성능을 극대화하는 'DualMindVLM'이라는 이중 사고 메커니즘을 제안합니다.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

이 논문은 물리적 일관성을 보장하는 방사선 기반 사전 지식과 신경 연산자를 결합하여 불합리한 예측을 방지하고 연속 및 이산 스펙트럼 초해상도 성능을 향상시키는 '방사선 구조 신경 연산자 (RSNO)'를 제안합니다.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

이 논문은 기존 심층 전개 네트워크의 한계를 극복하기 위해 다중 입자도 열화 인식 모듈과 잠재 확산 모델 기반의 사전 지식을 결합하여, 블라인드 이미지 복원 작업에서 열화 제거와 고주파 텍스처 복원을 동시에 수행하는 UnfoldLDM 을 제안합니다.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

이 논문은 GNSS 신호가 차단되는 해상 환경에서 드론 군집의 시각적 탐지, 경량 다물체 추적, 삼각측량 및 가중치 확장 칼만 필터를 결합하여 해양 로봇의 실시간 안정적 위치 추적을 가능하게 하는 새로운 시스템을 제안하고 검증합니다.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

이 논문은 오프더셸 대형 모델의 추론 및 구성 능력을 활용하여 'Yo'City'라는 새로운 에이전트 프레임워크를 제안함으로써, 사용자의 맞춤형 요구를 반영하고 무한히 확장 가능한 사실적인 3D 도시 장면을 생성하는 방법을 제시합니다.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

Shortcut Invariance: Targeted Jacobian Regularization in Disentangled Latent Space

이 논문은 의료 영상 등 실제 환경에서shortcut-label 이나 shortcut-충돌 샘플 없이도, 해리된 잠재 공간에서 타겟된 아노트로픽 노이즈를 주입하여 분류기의 민감도를 정규화함으로써 OOD 일반화 성능을 획기적으로 개선하는 'Shortcut Invariance' 방법을 제안합니다.

Shivam Pal, Sakshi Varshney, Piyush Rai2026-03-10🤖 cs.LG

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

이 논문은 2D 마이크로 CT 슬라이스를 기반으로 한 심층 학습 파이프라인 'ForamDeepSlice'를 제안하여 27 종의 유공충을 95.64% 의 높은 정확도로 자동 분류하고, 실시간 분류 및 3D 슬라이스 매칭을 지원하는 대시보드를 개발함으로써 AI 기반 미고생물학 식별의 새로운 기준을 제시합니다.

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

이 논문은 2D 분할 사전 지식과 3D 일관성 감독을 결합하여 3D 점구름의 부분 분할 일반화 문제를 해결하고, 실시간으로 분할 세밀도를 조절할 수 있는 S2AM3D 모델과 대규모 고품질 데이터셋을 제안합니다.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

이 논문은 불필요한 정보로 인한 계산 오버헤드를 줄이면서도 역사적 맥락을 효과적으로 활용하기 위해 동적 맥락 샘플링과 앵커 기반 역사 압축을 결합한 'HiconAgent'를 제안하고, 이를 통해 더 작은 모델로도 기존 최첨단 모델보다 뛰어난 성능과 효율성을 달성함을 보여줍니다.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

이 논문은 이해와 생성 능력을 통합하고 오디오 - 비디오 융합을 최적화하기 위해 '지휘자 - 창작자' 아키텍처와 AR-확산 모델을 결합한 다중 모달 대화 프레임워크 MAViD 를 제안하여 자연스럽고 일관된 장기간 대화형 오디오 - 비디오 생성을 가능하게 합니다.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

이 논문은 비전 대규모 언어 모델 (VLLM) 의 깊은 층에서 기존 토큰 가지치기 방법이 무작위 제거보다 성능이 떨어지는 '정보의 소멸' 현상을 규명하고, 시각적 정보의 유효 깊이를 기반으로 무작위 가지치기를 결합한 새로운 전략을 제안하여 성능을 유지하면서 추론 효율을 극대화함을 보여줍니다.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

← 이전 다음 →