ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

이 논문은 산업 환경에서의 인간 행동 이해를 지원하기 위해 실제 산업 현장에서 동기화된 180 개의 자시 (ego) 및 타시 (exo) 시점 비디오와 상세한 주석을 포함한 새로운 데이터셋 'ENIGMA-360'을 제안하고, 이를 기반으로 한 기초 실험을 통해 기존 모델의 한계를 규명했습니다.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria FarinellaWed, 11 Ma💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

이 논문은 시각적 관찰의 모호성을 극복하고 절차 계획의 정확도를 획기적으로 향상시키기 위해, 비전 - 언어 모델을 활용하여 시각 정보를 언어적 표현으로 변환한 후 이를 확산 모델에 적용하는 새로운 '언어 인식 계획 (LAP)' 모델을 제안하고 여러 벤치마크에서 최첨단 성능을 입증했습니다.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie LowryWed, 11 Ma💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

이 논문은 기존 방법의 한계를 극복하고 추가 학습 없이 다국어 로고 생성 및 스타일화를 가능하게 하는 'LogoDiffuser'라는 새로운 방법을 제안하며, 이를 위해 텍스트 대신 문자 이미지를 입력하고 주의 메커니즘을 제어하여 문자 구조와 시각적 디자인을 통합합니다.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk ChoiWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

이 논문은 360 도 실내 환경에서의 전역적 지각을 위해 왜곡 인식 스펙트럼 모듈레이터와 오미-구형 밀도화 헤드를 갖춘 PanoAffordanceNet 프레임워크와 고품질 데이터셋 360-AGD 를 제안하여, 기존 객체 중심 및 평면 뷰에 국한된 affordance grounding 의 한계를 극복하고 장면 수준의 지각을 위한 강력한 기준을 마련했습니다.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

이 논문은 기존 백도어 방어 기법이 훈련된 트리거를 제거하는 것만으로는 충분하지 않으며, 훈련 트리거와 시각적으로 구별되지만 동일한 백도어를 활성화하는 '대체 트리거'가 존재함을 이론적·실증적으로 증명하고, 이에 따라 입력 공간의 트리거가 아닌 표현 공간의 백도어 방향을 표적으로 하는 새로운 방어 전략의 필요성을 제기합니다.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan PicekWed, 11 Ma💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

이 논문은 기존 방법의 높은 데이터 및 계산 비용 문제를 해결하기 위해, 멀티-라벨 프로토타입 성장 모듈과 이중 단서 일관성 메커니즘을 통해 테스트 시간 동안 이기-엑소 관점 간 행동 예측을 적응시키는 새로운 프레임워크 (DCPGN) 를 제안합니다.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang LiWed, 11 Ma💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

이 논문은 두 개의 입력 이미지로 큰 시점 변화를 겪는 새로운 뷰를 합성할 때, 기존 회귀 기반 방법의 한계와 카메라 유도 확산 모델의 불안정성을 해결하기 위해, 신뢰도 가중치와 칼만 필터 기반 예측 - 업데이트 메커니즘을 활용하여 확산 모델이 지시된 카메라 궤적을 따르면서도 보이지 않는 영역을 정확하게 복원하도록 하는 'ConfCtrl' 프레임워크를 제안합니다.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav ValadaWed, 11 Ma💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

이 논문은 진단 신호의 미묘함과 산포로 인한 해석 가능성의 한계를 극복하기 위해, 적응적 위상 분할, 주의를 통한 중요 위상 식별, 이진화 및 희소성 정규화를 통한 그래프 구조 생성, 그리고 시공간 지도 대비 학습을 통합한 'BrainSTR' 프레임워크를 제안하여 자폐 스펙트럼 장애, 양극성 장애, 주요 우울증의 진단에 있어 해석 가능한 동적 뇌 네트워크 모델링을 가능하게 합니다.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. ZaianeWed, 11 Ma💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

이 논문은 비전 - 언어 모델 (VLM) 의 공간 추론 능력을 활용하여 3D 포인트 클라우드 맵 내 자연어 기반 위치 추정을 개선하기 위해, 포인트 클라우드를 BEV 이미지와 장면 그래프로 변환하고 부분 노드 할당 메커니즘을 도입한 VLM-Loc 프레임워크와 새로운 CityLoc 벤치마크를 제안합니다.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun LiuWed, 11 Ma💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

이 논문은 다수의 embodied 에이전트로부터 수집된 장기 시점의 이기중심 비디오를 동시에 이해하는 새로운 문제를 정의하고, 이를 평가하기 위한 MA-EgoQA 벤치마크와 공유 메모리 및 동적 검색을 활용한 EgoMAS 기반 모델을 제안하며, 현재 모델들이 다중 스트림 처리에 한계가 있음을 보여줍니다.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju HwangWed, 11 Ma🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

이 논문은 라벨이 없는 데이터로 초음파 국소화 현미경 (ULM) 의 해상도와 국소화 정확도를 획기적으로 향상시키면서도 실시간 처리가 가능한 최초의 통합 딥러닝 프레임워크인 'CycleULM'을 제안합니다.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing TangWed, 11 Ma⚡ eess

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

이 논문은 이해, 추론, 생성 및 편집 기능을 통합하면서도 4B 파라미터의 경량화 구조와 고밀도 의미 데이터 파이프라인을 통해 14B 규모의 기존 모델보다 뛰어난 성능과 효율성을 달성한 범용 멀티모달 모델 'InternVL-U'를 제안합니다.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie ZhangWed, 11 Ma💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

이 논문은 손목 관절 좌표와 물체 바운딩 박스라는 희소 모션 가이드와 객체 스트레스 어텐션, 다중 작업 보조 학습 전략을 통해 유연하고 물리적으로 일관된 인간 - 물체 상호작용 (HOI) 비디오 생성을 가능하게 하는 DISPLAY 프레임워크를 제안합니다.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong WangWed, 11 Ma💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

이 논문은 스포츠 장면의 공간적 지능을 평가하기 위해 100 만 개 이상의 QA 쌍을 포함한 대규모 데이터셋 'CourtSI'와 검증된 벤치마크 'CourtSI-Bench'를 제안하고, 이를 통해 기존 비전 - 언어 모델의 공간 이해 한계를 드러내며 스포츠 특화 파인튜닝이 성능을 획기적으로 개선함을 입증합니다.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang ZhongWed, 11 Ma💻 cs