cs.CV articoli | Gist.Science

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Il paper presenta ENIGMA-360, un nuovo dataset sincronizzato di video ego- ed exocentrici raccolti in un ambiente industriale reale e annotati temporalmente e spazialmente per favorire la comprensione del comportamento umano e lo sviluppo di sistemi di sicurezza, evidenziando attraverso esperimenti basali le attuali limitazioni dei modelli nello scenario.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria FarinellaWed, 11 Ma💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Il paper presenta LAP, un modello di pianificazione che sfrutta le descrizioni linguistiche derivate da un modello visione-linguaggio per superare l'ambiguità visiva e raggiungere prestazioni state-of-the-art nella pianificazione di procedure per video istruttivi.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie LowryWed, 11 Ma💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser è un metodo senza addestramento che genera e stilizza loghi multilingue iniettando mappe di attenzione informative in un modello di diffusione multimodale, utilizzando i caratteri target come immagini per garantire un controllo strutturale preciso e coerente.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk ChoiWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Il paper introduce PanoAffordanceNet, un nuovo framework end-to-end e il dataset 360-AGD per il grounding olistico delle affordance in ambienti interni a 360 gradi, superando le sfide delle distorsioni geometriche e della dispersione sematica attraverso modulatori spettrali adattivi e testine di densificazione sferica.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

Il paper propone un metodo efficiente per la personalizzazione dei modelli visione-linguaggio che, sfruttando i meccanismi di attenzione interna per estrarre token visivi come memoria concettuale, supera i limiti di scalabilità e complessità delle approcci esistenti senza richiedere fasi di addestramento aggiuntive.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf AljundiWed, 11 Ma🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Questo paper dimostra che le difese attuali contro i backdoor sono incomplete perché esistono "trigger alternativi" che attivano la stessa vulnerabilità nascosta, suggerendo che le contromisure devono mirare alle direzioni del backdoor nello spazio delle rappresentazioni anziché ai trigger specifici nello spazio degli input.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan PicekWed, 11 Ma💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

Questo lavoro evidenzia come i metodi di intelligenza artificiale spiegabile (XAI) trascurino spesso le "assenze codificate" nei neuroni, proponendo estensioni per rivelare questi concetti mancanti e migliorare sia l'interpretabilità dei modelli che le tecniche di debiasing.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan RothWed, 11 Ma🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Questo articolo propone DCPGN, un nuovo metodo di adattamento in tempo di test che utilizza la crescita di prototipi multi-etichetta e la coerenza di indizi duali (visivi e testuali) per migliorare l'anticipazione delle azioni tra prospettive egocentriche ed esocentriche senza richiedere dati di addestramento nel dominio target.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang LiWed, 11 Ma💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Questo lavoro introduce il nuovo compito di apprendimento audio-visivo "Region-Aware Sound Source Understanding" (RA-SSU), supportato dai dataset annotati f-Music e f-Lifescene e dal modello SSUFormer, che mira a ottenere una comprensione dettagliata delle sorgenti sonore a livello di regione e di fotogramma con prestazioni state-of-the-art.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan SunWed, 11 Ma💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

Il paper presenta ConfCtrl, un framework di interpolazione video consapevole della fiducia che risolve le sfide della sintesi di nuove viste da due immagini con grandi cambiamenti di prospettiva, permettendo ai modelli di diffusione di seguire traiettorie di camera precise e ricostruire regioni non visibili bilanciando proiezioni geometriche affidabili con correzioni residue apprese.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav ValadaWed, 11 Ma💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

Il paper propone BrainSTR, un framework di apprendimento contrastivo spaziotemporale che migliora l'interpretabilità e la diagnosi delle malattie neuropsichiatriche identificando fasi critiche e sottoreti cerebrali dinamiche attraverso un'analisi adattiva e regolarizzata della connettività funzionale.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. ZaianeWed, 11 Ma💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

Il paper presenta VLM-Loc, un framework che sfrutta le capacità di ragionamento spaziale dei modelli visione-linguaggio su mappe a punto cloud trasformate in immagini BEV e grafi di scena per migliorare l'accuratezza della localizzazione basata su descrizioni testuali, accompagnato dal nuovo benchmark CityLoc per la valutazione sistematica.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun LiuWed, 11 Ma💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Il paper introduce MA-EgoQA, un nuovo benchmark e un modello di base chiamato EgoMAS progettati per valutare e migliorare la capacità dei sistemi di intelligenza artificiale di comprendere e rispondere a domande basate su flussi video egocentrici simultanei provenienti da più agenti incarnati.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju HwangWed, 11 Ma🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

Il paper presenta CycleULM, il primo framework di deep learning unificato e privo di etichette per la microscopia di localizzazione ultrasonora, che supera le limitazioni dei dati reali e del divario simulazione-realtà traducendo i dati CEUS in un dominio semplificato, migliorando significativamente contrasto, risoluzione e precisione di localizzazione dei microbolle con elaborazione in tempo reale.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing TangWed, 11 Ma⚡ eess

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Il paper introduce MissBench, un benchmark e framework che standardizza protocolli di dati mancanti sbilanciati e definisce nuovi metrici diagnostici per valutare l'equità e l'ottimizzazione nei modelli di analisi affettiva multimodale in scenari realistici.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi NguyenWed, 11 Ma💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Il paper presenta InternVL-U, un modello multimodale unificato leggero da 4 miliardi di parametri che, grazie a un'architettura modulare e una pipeline di sintesi dati basata sul ragionamento, democratizza le capacità di comprensione, ragionamento, generazione e editing superando modelli unificati molto più grandi.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie ZhangWed, 11 Ma💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Il paper introduce DISPLAY, un framework per la generazione di video di interazioni uomo-oggetto ad alta fedeltà e controllabili, che utilizza una guida di movimento sparsa (coordinate del polso e bounding box dell'oggetto), un meccanismo di attenzione focalizzato sull'oggetto e una strategia di training multi-task per superare le limitazioni dei metodi esistenti.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong WangWed, 11 Ma💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Questo articolo presenta CourtSI, il primo dataset su larga scala e il relativo benchmark per valutare l'intelligenza spaziale dei modelli visione-linguaggio negli sport di rete, dimostrando come l'addestramento su questo nuovo corpus colmi il divario prestazionale tra AI e umani e migliori la capacità di ragionamento spaziale e generazione di commenti.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang ZhongWed, 11 Ma💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Il paper presenta WikiCLIP, un framework contrastivo efficiente che supera i metodi generativi per il riconoscimento di entità visive in dominio aperto, ottenendo prestazioni superiori su benchmark come OVEN e riducendo la latenza di inferenza di circa 100 volte grazie all'uso di embedding di modelli linguistici potenziati da un adattatore guidato dalla visione e da una sintesi di negativi difficili.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming HeWed, 11 Ma💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Questo paper dimostra che la distanza di Chamfer fallisce strutturalmente nell'ottimizzazione di forme 3D a causa di un collasso indotto dal gradiente che può essere risolto solo introducendo un accoppiamento non locale, come illustrato attraverso deformazioni a base condivisa e un prior MPM differenziabile.

Chang-Yong Song, David HydeWed, 11 Ma💻 cs

← Precedente Successivo →