cs.CV 편의 논문 | Gist.Science

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

음시각적 작업의 이질성으로 인한 부정적 전이를 해결하기 위해 명시적 추론이 포함된 대규모 데이터셋 (AV-UIE v2) 과 작업 간 상호작용을 동적으로 조정하는 I-LoRA 아키텍처를 제안하여, 단일 작업 학습을 능가하는 포괄적인 오디오 - 비주얼 장면 이해 모델 Crab $^{+}$ 를 개발했습니다.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

Mask-Guided Attention Regulation for Anatomically Consistent Counterfactual CXR Synthesis

이 논문은 확산 기반 Chest X-ray 합성 시 구조적 왜곡을 방지하고 병변을 정밀하게 제어하기 위해 해부학적 마스크를 활용한 어텐션 조절 프레임워크를 제안합니다.

Zichun Zhang, Weizhi Nie, Honglin Guo + 1 more2026-03-05💻 cs

HBRB-BoW: A Retrained Bag-of-Words Vocabulary for ORB-SLAM via Hierarchical BRB-KMeans

이 논문은 ORB-SLAM 의 이진 시각 어휘 훈련 과정에서 발생하는 정밀도 손실 문제를 해결하기 위해, 계층적 클러스터링 과정에 전역 실수값 흐름을 통합하여 최종 단말 노드에서만 이진화를 수행하는 'HBRB-BoW' 알고리즘을 제안하고, 이를 통해 루프 닫기 및 재로컬라이제이션 성능을 향상시킵니다.

Minjae Lee, Sang-Min Choi, Gun-Woo Kim + 1 more2026-03-05💻 cs

LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis

이 논문은 CNN 과 Transformer 의 한계를 극복하기 위해 LISTA 희소 인코딩과 비전 Transformer 를 결합한 LISTA-Transformer 모델을 제안하고, CWRU 데이터셋에서 98.5% 의 높은 고장 진단 정확도를 입증했습니다.

Shuang Liu, Lina Zhao, Tian Wang + 1 more2026-03-05💻 cs

Degradation-based augmented training for robust individual animal re-identification

이 논문은 야생동물 개체 재식별 성능 저하를 유발하는 이미지 열화 요인을 분석하고, 훈련 데이터에 인위적 열화를 적용한 증강 학습 프레임워크를 제안하여 다양한 종과 열화 조건에서도 재식별 정확도를 획기적으로 향상시켰음을 보여줍니다.

Thanos Polychronou, Lukáš Adam, Viktor Penchev + 1 more2026-03-05💻 cs

PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters

PlaneCycle 는 어댑터나 추가 학습 없이 사전 훈련된 2D 기반 모델을 3D 공간으로 변환하여 3D 분류 및 분할 작업에서 기존 3D 모델에 버금가는 성능을 달성하는 새로운 훈련 없는 2D-to-3D 리프팅 방법론을 제안합니다.

Yinghong Yu, Guangyuan Li, Jiancheng Yang2026-03-05🤖 cs.AI

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

이 논문은 로그 가능도 관점에서 일반화된 평균을 분석하여 선형 및 기하학적 풀링이 개별 분포보다 체계적인 개선을 보장하는 유일한 범위임을 이론적으로 증명하고, 딥 앙상블 실험을 통해 이를 검증했습니다.

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

이 논문은 디지털 문서 벤치마크인 OmniDocBench 를 스캔, 왜곡, 화면 촬영, 조명, 기울기 등 5 가지 실제 물리적 환경에서 완전히 재구성한 'Real5-OmniDocBench'를 통해 비전 - 언어 모델의 현실 세계 문서 파싱 성능 격차를 정밀하게 진단하고 견고한 문서 지능 개발을 위한 새로운 기준을 제시합니다.

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

Nearest-Neighbor Density Estimation for Dependency Suppression

이 논문은 민감 변수와의 통계적 의존성을 제거하면서도 데이터의 본질적 특성을 보존하기 위해, 비모수적 최근접 이웃 밀도 추정을 기반으로 한 새로운 손실 함수와 변이 오토인코더를 결합한 인코더 기반 접근법을 제안하고 있습니다.

Kathleen Anderson, Thomas Martinetz2026-03-05🤖 cs.LG

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

이 논문은 Diffusion Transformer(DiT) 의 내부 표현 다양성이 학습 성능에 결정적임을 규명하고, 이를 촉진하기 위해 긴 잔차 연결과 표현 다양성 손실 함수를 도입한 새로운 프레임워크인 DiverseDiT 를 제안하여 다양한 백본과 조건에서 성능 향상과 수렴 가속화를 입증합니다.

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

DeNuC: Decoupling Nuclei Detection and Classification in Histopathology

이 논문은 병리 Foundation 모델에서 핵 검출과 분류의 결합 최적화가 성능 저하를 초래한다는 점을 규명하고, 이를 해결하기 위해 핵 위치 탐지와 분류를 분리하는 경량화된 프레임워크 'DeNuC'를 제안하여 기존 최첨단 방법보다 높은 정확도와 효율성을 달성했다고 요약할 수 있습니다.

Zijiang Yang, Chen Kuang, Dongmei Fu2026-03-05💻 cs

EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

이 논문은 스트리밍 이미지로부터 실시간으로 3D 재구성과 오픈-보캐불러리 의미 이해를 동시에 수행하는 온라인 피드-포워드 3D 가우시안 스플래팅 (EmbodiedSplat) 을 제안하며, 이를 위해 CLIP 임베딩을 3D 가우시안에 효율적으로 바인딩하고 3D 기하학적 사전 지식을 통합하는 새로운 아키텍처를 제시합니다.

Seungjun Lee, Zihan Wang, Yunsong Wang + 1 more2026-03-05💻 cs

A Hypertoroidal Covering for Perfect Color Equivariance

이 논문은 기존 색조 등변성 아키텍처가 채도와 명도를 1 차원 평면으로 근사함으로써 발생하는 문제를 해결하기 위해, 이를 원형 공간으로 리프팅하여 진정한 등변성을 보장하는 하이퍼토로이달 덮개 아키텍처를 제안하고 다양한 작업에서 기존 방법보다 우수한 성능을 입증합니다.

Yulong Yang, Zhikun Xu, Yaojun Li + 1 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

이 논문은 차분 가능한 비터비 계층을 통해 절차적 지식 그래프를 명시적으로 통합함으로써, 기존 대규모 모델보다 훨씬 적은 파라미터로 더 높은 샘플 효율성과 강건성을 달성하는 새로운 계획 프레임워크인 ViterbiPlanNet 을 제안합니다.

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

SSR: A Generic Framework for Text-Aided Map Compression for Localization

이 논문은 대규모 언어 모델을 활용한 텍스트 설명과 매우 작은 이미지 특징 벡터를 결합하여 메모리 및 대역폭 비용을 줄이면서도 고정밀 로컬라이제이션을 가능하게 하는 '유사성 공간 복제 (SSR)'라는 새로운 지도 압축 프레임워크를 제안하고, 다양한 데이터셋에서 기존 방법보다 2 배 우수한 압축 성능을 입증합니다.

Mohammad Omama, Po-han Li, Harsh Goel + 6 more2026-03-05💻 cs

A multi-center analysis of deep learning methods for video polyp detection and segmentation

본 논문은 다기관 데이터를 기반으로 시퀀스 데이터와 시간적 정보를 활용하는 딥러닝 기법이 대장내시경 중 용종 검출 및 분할의 정확도를 향상시켜 진단 정밀도를 높일 수 있음을 평가합니다.

Noha Ghatwary, Pedro Chavarias Solano, Mohamed Ramzy Ibrahim + 24 more2026-03-05💻 cs

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

CubeComposer 는 기존 방법들의 해상도 한계를 극복하기 위해 큐브맵 표현과 시공간 자기회귀 전략을 활용하여 4K 고해상도 360 도 영상을 원천적으로 생성하는 새로운 확산 모델입니다.

Lingen Li, Guangzhi Wang, Xiaoyu Li + 5 more2026-03-05🤖 cs.AI

Motion Manipulation via Unsupervised Keypoint Positioning in Face Animation

이 논문은 기존 방법의 한계를 극복하기 위해 자기지도 학습과 변분 오토인코더를 활용하여 얼굴의 정체성과 움직임을 효과적으로 분리하고, 비지도 프레임워크 내에서 얼굴 표정을 자유롭게 조작하고 보간할 수 있는 새로운 얼굴 애니메이션 기법인 MMFA 를 제안합니다.

Hong Li, Boyu Liu, Xuhui Liu + 1 more2026-03-05💻 cs

Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation

이 논문은 10 만 개 이상의 4 가지 모달리티 데이터셋을 기반으로 텍스트와 이미지를 동시에 활용하는 이중 확산 모델을 제안하여, 기존 방법의 느린 추론 속도와 제어 한계를 극복하고 10 초 이내로 고품질의 3D 아바타를 생성하는 'PromptAvatar' 프레임워크를 소개합니다.

Hong Li, Yutang Feng, Minqi Meng + 3 more2026-03-05💻 cs

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

이 논문은 CREST-2 임상시험의 500 개 경동맥 플라크 초음파 영상을 분석하여 비선형 분류를 위한 새로운 커널 기반 가산 모델을 제안하고, 이를 통해 플라크의 질감이 임상적 위험과 강력하게 연관됨을 해석 가능하게 규명했습니다.

Pranav Kulkarni, Brajesh K. Lal, Georges Jreij + 11 more2026-03-05🤖 cs.AI

← 이전 다음 →

cs.CV

Crab+^{+}+: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation