Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

이 논문은 RGB-D 센서, 촉각 피드백, 충돌 인식 모션 플랜닝을 갖춘 디지털 트윈 기반 양팔 로봇 시스템과 시각 언어 모델 (VLM) 을 통합하여, 변형 가능한 의류와 이물질을 실시간으로 분류 및 식별하는 자동화된 텍스타일 선별 시스템의 실현 가능성을 입증했습니다.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

이 논문은 noisy 한 검색과 체계적인 지식베이스의 특성으로 인해 기존 멀티모달 모델이 지식 기반 시각 질문 답변 (KB-VQA) 에서 겪는 어려움을 해결하기 위해, 데이터 생성과 샘플링 커리큘럼을 통해 추론 능력을 체계적으로 고취시키는 'Wiki-R1' 프레임워크를 제안하고, 이를 통해 Encyclopedic VQA 와 InfoSeek 벤치마크에서 새로운 최첨단 성능을 달성했음을 보여줍니다.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

이 논문은 사전 학습된 비전 트랜스포머 (ViT) 의 중간 레이어가 분포 변화에 따라 최적의 성능을 내는 위치가 달라지며, 심한 분포 변화 시에는 피드포워드 네트워크 내부 활성화가, 약한 변화 시에는 멀티헤드 셀프 어텐션의 정규화된 출력이 각각 최적의 OOD 탐지 지점임을 규명합니다.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

이 논문은 LiDAR 과 RGB 데이터의 융합을 통해 3D 객체 감지 성능을 향상시키기 위해 대비 정렬 모듈, 카메라 보조 분기, 인지 어댑터, 그리고 좌표 어텐션 모듈을 도입한 'Fusion4CA'를 제안하며, nuScenes 및 시뮬레이션 달 환경 실험을 통해 적은 학습 에포크와 파라미터 증가로 기존 베이스라인 대비 1.2%p 의 mAP 개선을 입증했습니다.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

이 논문은 기존 MOT 의 시야각 제한을 극복하고 장기 언어 설명 이해 능력을 향상시키기 위해 전방향 영상을 기반으로 한 새로운 작업인 '전방향 참조 다중 객체 추적 (ORMOT)'을 제안하고, 이를 위한 ORSet 데이터셋과 대규모 시계 언어 모델 (LVLM) 기반의 ORTrack 프레임워크를 소개합니다.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

이 논문은 저자원 환경의 모바일 기기에서 실시간 태아 초음파 분석을 가능하게 하기 위해, 거대한 교사 모델의 구조적 아티팩트를 배제하고 학생 모델이 고유한 특징을 학습하도록 유도하는 '선택적 반발 지식 증류' 기법을 제안하여 1140 만 파라미터의 경량 모델이 3 억 400 만 파라미터의 기존 모델보다 더 높은 성능을 달성하도록 했습니다.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

이 논문은 약한 지도 학습 밀도 비디오 캡셔닝의 성능을 향상시키기 위해 교차 모달 정렬을 기반으로 의미론적 마스크를 생성하고, LLM 기반의 증강 전략을 통해 합성 캡션을 추가하여 정밀한 시간적 국소화를 달성하는 SAIL 모델을 제안합니다.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

이 논문은 밀집된 의도 설명과 팔레트 쿼리를 통합하여 네일 디자인 이미지를 검색하는 멀티모달 방법인 'NaiLIA'를 제안하고, 이를 검증하기 위해 다양한 문화적 배경을 가진 10,625 개의 이미지와 200 명 이상의 어노테이터가 작성한 상세한 설명으로 구성된 벤치마크를 구축하여 기존 방법보다 우수한 성능을 입증했습니다.

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs