cs articoli | Gist.Science

Differentiable Variable Fonts

Questo lavoro introduce i "font variabili differenziabili", un nuovo framework che automatizza la progettazione e l'animazione tipografica trasformando le specifiche dei font variabili in una formulazione matematica differenziabile, permettendo così l'ottimizzazione basata su gradienti per migliorare l'estetica e la leggibilità del testo senza intervento manuale.

Kinjal Parikh, Danny M. Kaufman, David I. W. Levin, Alec Jacobson2026-03-10💻 cs

EB-MBD: Emerging-Barrier Model-Based Diffusion for Safe Trajectory Optimization in Highly Constrained Environments

Il documento presenta l'EB-MBD, un nuovo approccio che integra funzioni barriera emergenti nel Diffusione Basata su Modello per garantire la sicurezza e migliorare l'efficienza computazionale nella generazione di traiettorie ottimali in ambienti altamente vincolati, superando i limiti di instabilità e costo delle tecniche tradizionali.

Raghav Mishra, Ian R. Manchester2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

Il paper presenta AR-Drag, il primo modello di diffusione video autoregressivo potenziato dal reinforcement learning per la generazione di video in tempo reale da immagini con controllo preciso del movimento, risolvendo i problemi di latenza e qualità tipici delle approcci esistenti.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

CDE: Concept-Driven Exploration for Reinforcement Learning

Il paper propone CDE (Concept-Driven Exploration), un metodo che utilizza un modello visione-linguaggio pre-addestrato per generare concetti visivi come segnali di ricompensa intrinseca, permettendo a un agente di esplorare in modo efficiente compiti di manipolazione visiva sia in simulazione che nel mondo reale.

Le Mao, Andrew H. Liu, Renos Zabounidis, Yanan Niu, Zachary Kingston, Joseph Campbell2026-03-10💻 cs

Deliberative Dynamics and Value Alignment in LLM Debates

Questo studio analizza le dinamiche deliberative e l'allineamento valoriale di diversi modelli LLM in dibattiti multi-turno su dilemmi etici quotidiani, rivelando significative differenze nel comportamento, nella flessibilità delle revisioni e nelle priorità valoriali tra i modelli, nonché un forte impatto delle strutture di interazione sincrona e sequenziale sui loro esiti.

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Il paper propone un plugin leggero e senza addestramento, basato sull'identificazione e ridimensionamento condizionale delle classi di testine di attenzione, per riallocare dinamicamente le risorse tra percezione e ragionamento negli modelli di ragionamento multimodale, riducendo così le allucinazioni e migliorando la coerenza senza modificare l'architettura.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Questo lavoro propone un framework di apprendimento per rinforzo multi-obiettivo condizionato dalle preferenze che permette a un robot umanoide di bilanciare dinamicamente il tracciamento dei comandi di navigazione e la compliance alle forze esterne, garantendo sia stabilità che interazione sicura in ambienti reali.

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao2026-03-10💻 cs

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

Il paper presenta DropVLA, un attacco backdoor a livello di azione per i modelli Vision-Language-Action che, mediante un'iniezione mirata di dati di addestramento, forza l'esecuzione di primitive fisiche specifiche in punti decisionali scelti dall'attaccante mantenendo inalterate le prestazioni nominali del compito.

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Questo lavoro presenta un modello del mondo basato sulla visione egocentrica e un controllo predittivo del modello (MPC) addestrati su dati offline senza dimostrazioni, che permettono a un umanoide fisico di pianificare in tempo reale interazioni fisiche complesse in ambienti non strutturati con maggiore efficienza rispetto ai metodi di apprendimento per rinforzo tradizionali.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Protege Effect for Behaviour Change: Does Teaching Digital Stress Solutions to Others Reduce One's Own?

Questo studio ha dimostrato che l'approccio basato sull'effetto protègè, che prevede l'insegnamento di soluzioni allo stress digitale ad altri, non è risultato efficace nel ridurre lo stress digitale o migliorare la gestione dei social media rispetto ai gruppi di controllo, evidenziando la difficoltà di tradurre l'impegno cognitivo in un cambiamento comportamentale duraturo.

Sameha Alshakhsi, Ala Yankouskaya, Dena Al-Thani, Raian Ali2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Questa revisione sistematica esamina l'applicazione dei modelli generativi profondi non supervisionati per il rilevamento di anomalie nelle neuroimmagini, evidenziando il loro potenziale per la localizzazione di patologie senza annotazioni voxel-level, pur sottolineando le sfide legate all'eterogeneità metodologica e alla validazione esterna.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

A Robust Placeability Metric for Model-Free Unified Pick-and-Place Reasoning

Questo lavoro introduce una metrica probabilistica robusta per la stabilità di posizionamento che, valutando direttamente le nuvole di punti parziali, abilita un ragionamento unificato e privo di modelli per la presa e il posizionamento di oggetti non visti su supporti complessi.

Benno Wingender, Nils Dengler, Rohit Menon, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Questo lavoro introduce il nuovo compito di Segmentazione Audio-Visiva Continuale (CAVS) e propone il framework Collision-based Multi-modal Rehearsal (CMR) per mitigare la deriva semantica e la confusione da co-occorrenza, ottenendo risultati superiori rispetto ai metodi a modalità singola in scenari di apprendimento incrementale.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

Il lavoro presenta PolyJailbreak, un nuovo framework di jailbreak black-box per i modelli linguistici multimodali (MLLM) che sfrutta l'asimmetria nella sicurezza tra modalità testuale e visiva, utilizzando primitive atomiche e ottimizzazione multi-agente per superare i meccanismi di sicurezza e ottenere tassi di successo superiori al 95% su modelli commerciali come GPT-4o e Gemini.

Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Guangquan Xu, Shouling Ji2026-03-10💻 cs

HumanHalo - Safe and Efficient 3D Navigation Among Humans via Minimally Conservative MPC

Il paper presenta HumanMPC, un framework di controllo predittivo basato su modelli che garantisce una navigazione sicura ed efficiente di droni in ambienti affollati, combinando previsioni del movimento umano guidate dai dati con una formulazione di sicurezza innovativa che riduce il conservatorismo eccessivo.

Simon Schaefer, Helen Oleynikova, Sandra Hirche, Stefan Leutenegger2026-03-10💻 cs

Khelte Khelte Shikhi: A Proposed HCI Framework for Gamified Interactive Learning with Minecraft in Bangladeshi Education Systems

Questo documento propone un quadro concettuale HCI per l'implementazione di Minecraft Education Edition nel sistema educativo bangladese, adattando l'apprendimento basato su giochi a tre livelli di infrastruttura tecnologica e risorse per superare le sfide di connettività, energia e accesso all'hardware nelle scuole rurali e urbane.

Mohd Ruhul Ameen, Akif Islam, Momen Khandokar Ope2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Il paper introduce Dream4Drive, un nuovo framework di generazione di dati sintetici che, decomponendo i video in mappe guida 3D e adattando modelli di mondo guidati, migliora significativamente le prestazioni dei modelli di percezione per la guida autonoma, specialmente nella gestione di casi limite, superando i limiti delle attuali strategie di addestramento.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

Il paper propone MoE-GS, un nuovo framework unificato per la ricostruzione di scene dinamiche tramite Gaussian Splatting che integra esperti specializzati tramite un router aware del volume per migliorare la qualità della sintesi di nuove viste, offrendo anche strategie di ottimizzazione per l'efficienza e la distillazione.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

Next Generation Cloud-native In-Memory Stores: From Redis to Valkey and Beyond

Questo studio valuta le prestazioni e la sostenibilità di Valkey, KeyDB e Garnet come alternative cloud-native a Redis, evidenziando i compromessi tra efficienza, compatibilità e longevità del progetto in ambienti Kubernetes.

Carl-Johan Fauvelle Munck af Rosensch"old, Feras M. Awaysheh, Ahmad Awad2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

Il paper presenta HCLA, un sistema multi-agente basato su LLM e centrato sull'utente che, attraverso un flusso di lavoro conversazionale, trasforma l'intento analitico in regole esplicite e ricostruisce giustificazioni di stile esperto per migliorare la trasparenza e l'accountability nel rilevamento delle transazioni anomale con asset digitali.

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs

← Precedente Successivo →