cs articoli | Gist.Science

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Il paper introduce SACA, un nuovo framework di allineamento contrastivo step-aware che risolve le limitazioni degli attuali metodi di addestramento per la navigazione visione-linguaggio in ambienti continui, migliorando la generalizzazione e il recupero dagli errori attraverso una supervisione densa e un'analisi dettagliata dei singoli passaggi.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Il paper presenta ENIGMA-360, un nuovo dataset sincronizzato di video ego- ed exocentrici raccolti in un ambiente industriale reale e annotati temporalmente e spazialmente per favorire la comprensione del comportamento umano e lo sviluppo di sistemi di sicurezza, evidenziando attraverso esperimenti basali le attuali limitazioni dei modelli nello scenario.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Il paper presenta LAP, un modello di pianificazione che sfrutta le descrizioni linguistiche derivate da un modello visione-linguaggio per superare l'ambiguità visiva e raggiungere prestazioni state-of-the-art nella pianificazione di procedure per video istruttivi.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

Caterpillar-Inspired Spring-Based Compressive Continuum Robot for Bristle-based Exploration

Questo articolo presenta un robot continuo a compressione ispirato ai bruchi, dotato di un sistema di attuazione a tendini e di sensori a setole artificiali, progettato per migliorare l'esplorazione e l'ispezione di spazi confinati tramite robot commerciali esistenti.

Zhixian Hu, Yu She, Juan Wachs2026-03-11💻 cs

Simultaneous Embedding of Two Paths on the Grid

Il documento dimostra che minimizzare la lunghezza dell'arco più lungo nell'embedding geometrico simultaneo di due percorsi su una griglia intera è NP-difficile, mentre presenta un algoritmo di complessità $O(n^{3/2})$ per minimizzare il perimetro della griglia quando uno dei percorsi è monotono in $x$ e l'altro in $y$ .

Stephen Kobourov, William Lenhart, Giuseppe Liotta, Daniel Perz, Pavel Valtr, Johannes Zink2026-03-11💻 cs

The Richest Paradigm You're Not Using: Commercial Videogames at the Intersection of Human-Computer Interaction and Cognitive Science

Questo articolo sostiene che i videogiochi commerciali rappresentino un ambiente di ricerca sottoutilizzato all'incrocio tra interazione uomo-computer e scienze cognitive, offrendo un contesto ecologicamente valido per studiare percezione, attenzione e funzioni esecutive attraverso un framework di mappatura tra affordance e cognizione.

Jaap Munneke, Jennifer E. Corbett2026-03-11💻 cs

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

Questo lavoro presenta un agente generativo neuro-simbolico che supera le allucinazioni fisiche dei modelli linguistici tradizionali validando autonomamente le assunzioni teoriche e completando i meccanismi fisici mancanti, come dimostrato nella simulazione coerente della pressurizzazione termica in arenaria a bassa permeabilità.

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong Huang2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser è un metodo senza addestramento che genera e stilizza loghi multilingue iniettando mappe di attenzione informative in un modello di diffusione multimodale, utilizzando i caratteri target come immagini per garantire un controllo strutturale preciso e coerente.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Il paper presenta MuxGel, un sensore visuo-tattile che risolve il compromesso tra visione pre-contatto e rilevamento tattile utilizzando un rivestimento a scacchiera per la multiplexazione spaziale e un framework di ricostruzione basato su U-Net per recuperare simultaneamente segnali visivi e tattili ad alta fedeltà.

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu She2026-03-11💻 cs

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Questo paper dimostra che le difese attuali contro i backdoor sono incomplete perché esistono "trigger alternativi" che attivano la stessa vulnerabilità nascosta, suggerendo che le contromisure devono mirare alle direzioni del backdoor nello spazio delle rappresentazioni anziché ai trigger specifici nello spazio degli input.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

Deblurring structural edges in variable thickness topology optimization via density-gradient-informed projection

Questo articolo propone un metodo di ottimizzazione topologica a spessore variabile che, combinando penalizzazione SIMP e una nuova proiezione informata dal gradiente di densità, elimina efficacemente le regioni a spessore ridotto e ripristina bordi strutturali nitidi senza compromettere la rigidità finale della struttura.

Gabriel Stankiewicz, Chaitanya Dev, Paul Steinmann2026-03-11💻 cs

CLIOPATRA: Extracting Private Information from LLM Insights

Il paper CLIOPATRA dimostra che le attuali protezioni heuristiche dei sistemi di analisi LLM, come quelle di Clio, sono insufficienti a prevenire la fuoriuscita di dati sensibili, poiché un avversario può manipolare il sistema per estrarre con successo la storia medica di un utente ignorando i meccanismi di redazione e audit.

Meenatchi Sundaram Muthu Selva Annamalai, Emiliano De Cristofaro, Peter Kairouz2026-03-11💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

Il paper presenta TIMID, una nuova architettura ispirata alla rilevazione di anomalie video che, sfruttando supervisione debole e un dataset di simulazione multi-robot, supera i limiti dei modelli esistenti nel rilevare errori temporali complessi durante l'esecuzione di compiti robotici ad alto livello.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)2026-03-11💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Questo articolo propone DCPGN, un nuovo metodo di adattamento in tempo di test che utilizza la crescita di prototipi multi-etichetta e la coerenza di indizi duali (visivi e testuali) per migliorare l'anticipazione delle azioni tra prospettive egocentriche ed esocentriche senza richiedere dati di addestramento nel dominio target.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

Expressive Power of Property Graph Constraint Languages

Questo studio presenta un'analisi sistematica e unificata della potenza espressiva del linguaggio PG-Keys per i grafi di proprietà, confrontandolo con GFD e GGD per stabilire una gerarchia rigorosa che chiarisce il suo ruolo nel futuro standard GQL.

Stefania Dumbrava, Nadime Francis, Victor Marsault, Steven Sailly2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Questo lavoro introduce il nuovo compito di apprendimento audio-visivo "Region-Aware Sound Source Understanding" (RA-SSU), supportato dai dataset annotati f-Music e f-Lifescene e dal modello SSUFormer, che mira a ottenere una comprensione dettagliata delle sorgenti sonore a livello di regione e di fotogramma con prestazioni state-of-the-art.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

Il paper presenta ConfCtrl, un framework di interpolazione video consapevole della fiducia che risolve le sfide della sintesi di nuove viste da due immagini con grandi cambiamenti di prospettiva, permettendo ai modelli di diffusione di seguire traiettorie di camera precise e ricostruire regioni non visibili bilanciando proiezioni geometriche affidabili con correzioni residue apprese.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

Il paper introduce EmoSURA, un nuovo framework di valutazione basato sulla verifica atomica delle unità percettive rispetto al segnale audio originale, che supera i limiti delle metriche tradizionali e dei giudici LLM per fornire una valutazione più accurata e affidabile delle didascalie emotive lunghe e dettagliate.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn Schuller2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

Il paper propone BrainSTR, un framework di apprendimento contrastivo spaziotemporale che migliora l'interpretabilità e la diagnosi delle malattie neuropsichiatriche identificando fasi critiche e sottoreti cerebrali dinamiche attraverso un'analisi adattiva e regolarizzata della connettività funzionale.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

Il paper presenta VLM-Loc, un framework che sfrutta le capacità di ragionamento spaziale dei modelli visione-linguaggio su mappe a punto cloud trasformate in immagini BEV e grafi di scena per migliorare l'accuratezza della localizzazione basata su descrizioni testuali, accompagnato dal nuovo benchmark CityLoc per la valutazione sistematica.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

← Precedente Successivo →