LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

이 논문은 기존 방법의 한계를 극복하고 추가 학습 없이 다국어 로고 생성 및 스타일화를 가능하게 하는 'LogoDiffuser'라는 새로운 방법을 제안하며, 이를 위해 텍스트 대신 문자 이미지를 입력하고 주의 메커니즘을 제어하여 문자 구조와 시각적 디자인을 통합합니다.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

이 논문은 360 도 실내 환경에서의 전역적 지각을 위해 왜곡 인식 스펙트럼 모듈레이터와 오미-구형 밀도화 헤드를 갖춘 PanoAffordanceNet 프레임워크와 고품질 데이터셋 360-AGD 를 제안하여, 기존 객체 중심 및 평면 뷰에 국한된 affordance grounding 의 한계를 극복하고 장면 수준의 지각을 위한 강력한 기준을 마련했습니다.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

이 논문은 기존 백도어 방어 기법이 훈련된 트리거를 제거하는 것만으로는 충분하지 않으며, 훈련 트리거와 시각적으로 구별되지만 동일한 백도어를 활성화하는 '대체 트리거'가 존재함을 이론적·실증적으로 증명하고, 이에 따라 입력 공간의 트리거가 아닌 표현 공간의 백도어 방향을 표적으로 하는 새로운 방어 전략의 필요성을 제기합니다.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

이 논문은 기존 방법의 높은 데이터 및 계산 비용 문제를 해결하기 위해, 멀티-라벨 프로토타입 성장 모듈과 이중 단서 일관성 메커니즘을 통해 테스트 시간 동안 이기-엑소 관점 간 행동 예측을 적응시키는 새로운 프레임워크 (DCPGN) 를 제안합니다.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

이 논문은 두 개의 입력 이미지로 큰 시점 변화를 겪는 새로운 뷰를 합성할 때, 기존 회귀 기반 방법의 한계와 카메라 유도 확산 모델의 불안정성을 해결하기 위해, 신뢰도 가중치와 칼만 필터 기반 예측 - 업데이트 메커니즘을 활용하여 확산 모델이 지시된 카메라 궤적을 따르면서도 보이지 않는 영역을 정확하게 복원하도록 하는 'ConfCtrl' 프레임워크를 제안합니다.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

이 논문은 진단 신호의 미묘함과 산포로 인한 해석 가능성의 한계를 극복하기 위해, 적응적 위상 분할, 주의를 통한 중요 위상 식별, 이진화 및 희소성 정규화를 통한 그래프 구조 생성, 그리고 시공간 지도 대비 학습을 통합한 'BrainSTR' 프레임워크를 제안하여 자폐 스펙트럼 장애, 양극성 장애, 주요 우울증의 진단에 있어 해석 가능한 동적 뇌 네트워크 모델링을 가능하게 합니다.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

이 논문은 비전 - 언어 모델 (VLM) 의 공간 추론 능력을 활용하여 3D 포인트 클라우드 맵 내 자연어 기반 위치 추정을 개선하기 위해, 포인트 클라우드를 BEV 이미지와 장면 그래프로 변환하고 부분 노드 할당 메커니즘을 도입한 VLM-Loc 프레임워크와 새로운 CityLoc 벤치마크를 제안합니다.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

이 논문은 다수의 embodied 에이전트로부터 수집된 장기 시점의 이기중심 비디오를 동시에 이해하는 새로운 문제를 정의하고, 이를 평가하기 위한 MA-EgoQA 벤치마크와 공유 메모리 및 동적 검색을 활용한 EgoMAS 기반 모델을 제안하며, 현재 모델들이 다중 스트림 처리에 한계가 있음을 보여줍니다.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

이 논문은 라벨이 없는 데이터로 초음파 국소화 현미경 (ULM) 의 해상도와 국소화 정확도를 획기적으로 향상시키면서도 실시간 처리가 가능한 최초의 통합 딥러닝 프레임워크인 'CycleULM'을 제안합니다.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

이 논문은 이해, 추론, 생성 및 편집 기능을 통합하면서도 4B 파라미터의 경량화 구조와 고밀도 의미 데이터 파이프라인을 통해 14B 규모의 기존 모델보다 뛰어난 성능과 효율성을 달성한 범용 멀티모달 모델 'InternVL-U'를 제안합니다.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

이 논문은 손목 관절 좌표와 물체 바운딩 박스라는 희소 모션 가이드와 객체 스트레스 어텐션, 다중 작업 보조 학습 전략을 통해 유연하고 물리적으로 일관된 인간 - 물체 상호작용 (HOI) 비디오 생성을 가능하게 하는 DISPLAY 프레임워크를 제안합니다.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

이 논문은 스포츠 장면의 공간적 지능을 평가하기 위해 100 만 개 이상의 QA 쌍을 포함한 대규모 데이터셋 'CourtSI'와 검증된 벤치마크 'CourtSI-Bench'를 제안하고, 이를 통해 기존 비전 - 언어 모델의 공간 이해 한계를 드러내며 스포츠 특화 파인튜닝이 성능을 획기적으로 개선함을 입증합니다.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

이 논문은 전구적 임베딩의 한계를 극복하고 해석 가능한 정밀한 대응 관계를 제공하기 위해, 관절 기반 모션 이미지를 사전 학습된 비전 트랜스포머와 호환되도록 설계하고 토큰 단위 후기 상호작용을 통해 텍스트 - 모션 검색의 정확성과 해석 가능성을 동시에 향상시킨 새로운 방법을 제안합니다.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

이 논문은 알츠하이머병 진단을 위한 다중 모달 뇌 영상 데이터의 결측을 해결하기 위해, 임상 메타데이터와 가용 영상을 적응적으로 융합하는 잠재 확산 모델 (ACADiff) 을 제안하여 sMRI, FDG-PET, AV45-PET 간의 고품질 상호 생성 및 결측 모달리티 보강을 가능하게 함을 보여줍니다.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI