cs.CV 편의 논문 | Gist.Science

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

이 논문은 RGB-D 센서, 촉각 피드백, 충돌 인식 모션 플랜닝을 갖춘 디지털 트윈 기반 양팔 로봇 시스템과 시각 언어 모델 (VLM) 을 통합하여, 변형 가능한 의류와 이물질을 실시간으로 분류 및 식별하는 자동화된 텍스타일 선별 시스템의 실현 가능성을 입증했습니다.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

이 논문은 다양한 사이트와 프로토콜에 걸쳐 방대한 ASL CBF 데이터를 기반으로 3D 마스킹 오토인코더를 활용한 자기지도 학습 프레임워크인 ICHOR 을 제안하여, 하류 진단 및 품질 예측 작업에서 기존 방법들보다 우수한 성능을 입증했습니다.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

이 논문은 다중 에이전트 시스템의 실시간 협업 인식에서 발생하는 시간적 지연과 잡음 문제를 해결하기 위해, 비동기적 특징 정렬, 잡음 제거, 적응형 특징 선택을 통합한 CATNet 을 제안하고 다양한 데이터셋에서 기존 방법보다 우수한 성능을 입증합니다.

Gong Chen, Chaokun Zhang, Tao Tang + 3 more2026-03-06💻 cs

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

이 논문은 noisy 한 검색과 체계적인 지식베이스의 특성으로 인해 기존 멀티모달 모델이 지식 기반 시각 질문 답변 (KB-VQA) 에서 겪는 어려움을 해결하기 위해, 데이터 생성과 샘플링 커리큘럼을 통해 추론 능력을 체계적으로 고취시키는 'Wiki-R1' 프레임워크를 제안하고, 이를 통해 Encyclopedic VQA 와 InfoSeek 벤치마크에서 새로운 최첨단 성능을 달성했음을 보여줍니다.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

이 논문은 사전 학습된 비전 트랜스포머 (ViT) 의 중간 레이어가 분포 변화에 따라 최적의 성능을 내는 위치가 달라지며, 심한 분포 변화 시에는 피드포워드 네트워크 내부 활성화가, 약한 변화 시에는 멀티헤드 셀프 어텐션의 정규화된 출력이 각각 최적의 OOD 탐지 지점임을 규명합니다.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

이 논문은 웹 에이전트 연구를 가속화하기 위해 시각, 구조, 행동 데이터의 삼중 정렬을 포함한 대규모 인간 주석 웹 상호작용 데이터셋 'WebChain'을 소개하고, 이를 활용한 듀얼 미드-트레이닝 기법으로 웹 에이전트의 성능을 획기적으로 개선했음을 보고합니다.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

이 논문은 LiDAR 과 RGB 데이터의 융합을 통해 3D 객체 감지 성능을 향상시키기 위해 대비 정렬 모듈, 카메라 보조 분기, 인지 어댑터, 그리고 좌표 어텐션 모듈을 도입한 'Fusion4CA'를 제안하며, nuScenes 및 시뮬레이션 달 환경 실험을 통해 적은 학습 에포크와 파라미터 증가로 기존 베이스라인 대비 1.2%p 의 mAP 개선을 입증했습니다.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs

Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers

이 논문은 확산 트랜스포머 (DiT) 의 추론 비용을 줄이기 위해 시간, 깊이, 특징 차원의 비균질성을 고려한 'SpectralCache'라는 새로운 캐싱 프레임워크를 제안하며, 기존 방법보다 16% 빠른 가속화와 동등한 품질을 달성함을 보여줍니다.

Guandong Li2026-03-06💻 cs

Dark3R: Learning Structure from Motion in the Dark

이 논문은 -4dB 이하의 극저조도 환경에서도 기존 방법이 실패하는 문제를 해결하기 위해, 3D 기반 모델의 지식 증류와 노이즈가 포함된 원본 이미지 쌍만을 활용한 학습을 통해 구조 추정 및 새로운 뷰 합성을 가능하게 하는 'Dark3R' 프레임워크를 제안합니다.

Andrew Y Guo, Anagh Malik, SaiKiran Tedla + 7 more2026-03-06💻 cs

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

이 논문은 밀집 3D 매핑이나 정책 학습 없이도 시각 - 언어 사전 모델을 통합하여 개방형 환경에서 제로샷으로 효율적으로 항해할 수 있는 새로운 프레임워크인 OpenFrontier 를 제안합니다.

Esteban Padilla, Boyang Sun, Marc Pollefeys + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

이 논문은 기존 MOT 의 시야각 제한을 극복하고 장기 언어 설명 이해 능력을 향상시키기 위해 전방향 영상을 기반으로 한 새로운 작업인 '전방향 참조 다중 객체 추적 (ORMOT)'을 제안하고, 이를 위한 ORSet 데이터셋과 대규모 시계 언어 모델 (LVLM) 기반의 ORTrack 프레임워크를 소개합니다.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations

이 논문은 그라디언트 기반과 영역 기반 클래스 활성화 맵의 장점을 결합하여 노이즈를 제거하고 적응적 융합 메커니즘을 통해 더 강건하고 세분화된 시각적 설명을 생성하는 새로운 프레임워크인 Fusion-CAM 을 제안합니다.

Hajar Dekdegue, Moncef Garouani, Josiane Mothe + 1 more2026-03-06💻 cs

Loop Closure via Maximal Cliques in 3D LiDAR-Based SLAM

이 논문은 3D LiDAR 기반 SLAM 에서 RANSAC 의 한계를 극복하고 노이즈 및 이상치에 강인한 최대 클릭 (maximal clique) 탐색을 기반으로 한 새로운 결정론적 루프 클로저 검증 알고리즘인 CliReg 를 제안하여, 다양한 환경에서 더 낮은 포즈 오차와 향상된 신뢰성을 달성함을 보여줍니다.

Javier Laserna, Saurabh Gupta, Oscar Martinez Mozos + 2 more2026-03-06💻 cs

Video-based Locomotion Analysis for Fish Health Monitoring

이 논문은 YOLOv11 기반의 객체 추적 기술을 활용하여 수조 환경에서 Sulawesi ricefish 의 이동 활동을 분석함으로써 조기 질병 감지 및 수산 동물 복지 향상을 위한 정밀한 건강 모니터링 시스템을 제안합니다.

Timon Palm, Clemens Seibold, Anna Hilsmann + 1 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

이 논문은 저자원 환경의 모바일 기기에서 실시간 태아 초음파 분석을 가능하게 하기 위해, 거대한 교사 모델의 구조적 아티팩트를 배제하고 학생 모델이 고유한 특징을 학습하도록 유도하는 '선택적 반발 지식 증류' 기법을 제안하여 1140 만 파라미터의 경량 모델이 3 억 400 만 파라미터의 기존 모델보다 더 높은 성능을 달성하도록 했습니다.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

RelaxFlow: Text-Driven Amodal 3D Generation

이 논문은 가려진 영역의 텍스트 기반 3D 생성 시 관측 데이터의 엄격한 보존과 텍스트 프롬프트에 따른 구조적 완성을 동시에 달성하기 위해, 훈련 없이 작동하는 RelaxFlow 프레임워크를 제안하고 이론적 증명과 새로운 벤치마크를 통해 그 유효성을 입증합니다.

Jiayin Zhu, Guoji Fu, Xiaolu Liu + 3 more2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

이 논문은 약한 지도 학습 밀도 비디오 캡셔닝의 성능을 향상시키기 위해 교차 모달 정렬을 기반으로 의미론적 마스크를 생성하고, LLM 기반의 증강 전략을 통해 합성 캡션을 추가하여 정밀한 시간적 국소화를 달성하는 SAIL 모델을 제안합니다.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

← 이전 다음 →

cs.CV