ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

이 논문은 기존 MOT 의 시야각 제한을 극복하고 장기 언어 설명 이해 능력을 향상시키기 위해 전방향 영상을 기반으로 한 새로운 작업인 '전방향 참조 다중 객체 추적 (ORMOT)'을 제안하고, 이를 위한 ORSet 데이터셋과 대규모 시계 언어 모델 (LVLM) 기반의 ORTrack 프레임워크를 소개합니다.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

이 논문은 저자원 환경의 모바일 기기에서 실시간 태아 초음파 분석을 가능하게 하기 위해, 거대한 교사 모델의 구조적 아티팩트를 배제하고 학생 모델이 고유한 특징을 학습하도록 유도하는 '선택적 반발 지식 증류' 기법을 제안하여 1140 만 파라미터의 경량 모델이 3 억 400 만 파라미터의 기존 모델보다 더 높은 성능을 달성하도록 했습니다.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

이 논문은 약한 지도 학습 밀도 비디오 캡셔닝의 성능을 향상시키기 위해 교차 모달 정렬을 기반으로 의미론적 마스크를 생성하고, LLM 기반의 증강 전략을 통해 합성 캡션을 추가하여 정밀한 시간적 국소화를 달성하는 SAIL 모델을 제안합니다.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

이 논문은 밀집된 의도 설명과 팔레트 쿼리를 통합하여 네일 디자인 이미지를 검색하는 멀티모달 방법인 'NaiLIA'를 제안하고, 이를 검증하기 위해 다양한 문화적 배경을 가진 10,625 개의 이미지와 200 명 이상의 어노테이터가 작성한 상세한 설명으로 구성된 벤치마크를 구축하여 기존 방법보다 우수한 성능을 입증했습니다.

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

이 논문은 분산된 토큰 수용 방식의 비효율성을 해결하기 위해 훈련 없이 적용 가능한 '최장 안정 접두사 (LSP)' 스케줄러를 제안하여, KV 캐시 국소성을 개선하고 토큰 반전률을 낮춤으로써 확산 언어 모델의 추론 속도를 최대 3.4 배까지 가속화하면서도 출력 품질을 유지하거나 향상시킨다고 설명합니다.

Pengxiang Li, Joey Tsai, Hongwei Xue + 2 more2026-03-06💻 cs

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

이 논문은 비디오 생성 모델의 느린 추론 속도를 해결하기 위해, 입력과 무관하게 일관되게 나타나는 희소성 패턴을 오프라인 보정을 통해 사전 식별하고 하드웨어 효율적으로 생략함으로써 학습 없이도 비디오 생성 품질을 유지하면서 최대 1.58 배의 속도 향상을 이루는 'CalibAtt' 방법을 제안합니다.

Shai Yehezkel, Shahar Yadin, Noam Elata + 2 more2026-03-06💻 cs