cs articoli | Gist.Science

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Il paper introduce PruneSID, un metodo senza addestramento per la compressione dei token visivi nei modelli visione-linguaggio che, combinando analisi delle componenti semantiche e soppressione non massima, preserva l'essenza delle informazioni riducendo drasticamente il carico computazionale e migliorando le prestazioni rispetto agli approcci esistenti.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Il paper presenta StyleVLA, un modello Vision-Language-Action basato su Qwen3-VL-4B e arricchito da vincoli fisici, che supera i modelli proprietari più grandi generando traiettorie di guida autonome non solo sicure ma anche fisicamente plausibili e adattate a diversi stili di guida.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Questo paper propone un nuovo framework a due stadi per la generazione di immagini fotorealistiche da schizzi, basato su un autoencoder con attenzione self-attention, un modulo di fusione che preserva le coordinate e un revisore di affinamento spaziale, che supera le tecniche attuali in fedeltà e coerenza semantica su diversi dataset.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Il paper propone la "Diagonal Distillation", un metodo innovativo che supera i limiti delle tecniche di distillazione esistenti per la generazione video in streaming, combinando una strategia di generazione asimmetrica e la modellazione del flusso ottico per ottenere video coerenti e ad alta fedeltà con un'accelerazione fino a 31 FPS.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

Questo articolo presenta il modello AM4RRE, un approccio basato su artefatti e prospettive multiple per integrare sistematicamente l'ingegneria dei requisiti normativi nel ciclo di vita dello sviluppo software, al fine di realizzare una conformità "by design" e raccogliere feedback per la fase finale di uno studio dottorale.

Oleksandr Kosenkov2026-03-11💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Il paper presenta SurgFed, un framework di apprendimento federato multi-task guidato dal linguaggio che, attraverso la selezione dei canali e l'aggregazione iper-parametrica basate su input testuali, supera le sfide della diversità dei tessuti e dei compiti per migliorare la segmentazione e la stima della profondità nei video chirurgici.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

Il paper presenta EmbC-Test, un pipeline basato su RAG che utilizza modelli linguistici per automatizzare la generazione di test per software embedded in C, riducendo i tempi di verifica fino al 66% e ottenendo un'alta percentuale di test sintatticamente corretti e validi.

Maximilian Harnot, Sebastian Komarnicki, Michal Polok, Timo Oksanen2026-03-11💻 cs

Avoiding Big Integers: Parallel Multimodular Algebraic Verification of Arithmetic Circuits

Il paper presenta TalisMan2.0, un nuovo strumento di verifica che combina riscrittura lineare e non lineare con ragionamento multimodulare parallelo per verificare circuiti aritmetici a parole senza ricorrere a intere di grandi dimensioni.

Clemens Hofstadler, Daniela Kaufmann, Chen Chen2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Il paper presenta Context-Nav, un approccio senza addestramento specifico che risolve la navigazione di istanze tramite descrizioni testuali lunghe integrando allineamenti testo-immagine per guidare l'esplorazione globale e un ragionamento spaziale 3D consapevole del punto di vista per verificare i candidati, ottenendo prestazioni all'avanguardia su InstanceNav e CoIN-Bench.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Questo lavoro esamina l'affidabilità dei modelli visione-linguaggio nell'assistenza alla guida, evidenziando le loro carenze nella coerenza delle risposte e nel ragionamento temporale, e propone il benchmark FutureVQA insieme a un metodo di addestramento auto-supervisionato per migliorare tali capacità senza richiedere etichette temporali.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Il paper introduce RuleSafe, un nuovo benchmark di manipolazione articolata con compiti non-Markoviani a lungo termine, e propone VQ-Memory, una rappresentazione temporale strutturata basata su VQ-VAE che migliora significativamente il ragionamento e la pianificazione dei modelli robotici in scenari complessi.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai Chenjia2026-03-11💻 cs

RESBev: Making BEV Perception More Robust

Il paper presenta RESBev, un metodo plug-and-play che migliora la robustezza della percezione Bird's-Eye-View (BEV) nei sistemi di guida autonoma ricostruendo le caratteristiche corrotte attraverso un modello latente del mondo, garantendo così maggiore sicurezza contro degradazioni dei sensori e attacchi avversari.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng Wang2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Il paper presenta DCAU-Net, un nuovo framework per la segmentazione di immagini mediche che combina un'attenzione incrociata differenziale (DCA) per ridurre la complessità computazionale e un'attenzione spaziale-canale (CSFF) per integrare adattivamente le informazioni semantiche e spaziali, ottenendo così una maggiore accuratezza e robustezza rispetto ai metodi esistenti.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Questo studio propone un metodo guidato da modelli linguistici di grandi dimensioni per generare espressioni multimodali dinamiche e semanticamente coerenti in agenti pedagogici per la realtà virtuale, dimostrando che tale approccio migliora significativamente l'efficacia percepita, l'engagement e la presenza sociale degli studenti, riducendo al contempo noia e affaticamento.

Ninghao Wan, Jiarun Song, Fuzheng Yang2026-03-11💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Questo lavoro propone una strategia di post-addestramento basata sul reinforcement learning, che estende l'ottimizzazione della politica relativa di gruppo (GRPO) ai modelli multimodali unificati, per abilitare la generazione intercalata di testo e immagini senza dipendere da grandi dataset specifici, migliorando significativamente la coerenza e la qualità in compiti come il racconto visivo.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Il paper introduce DynHiL-EQA, un nuovo dataset per la risposta a domande in ambienti embodied dinamici, e propone DIVRR, un framework senza addestramento che migliora la robustezza e l'efficienza inferenziale attraverso la raffinazione delle viste e la selezione adattiva della memoria.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

Il paper propone NS-VLA, un nuovo framework neuro-simbolico per modelli Vision-Language-Action che, integrando un encoder simbolico, un solver e l'apprendimento per rinforzo online, supera i metodi precedenti in termini di efficienza dei dati, generalizzazione zero-shot e capacità di esplorazione nella manipolazione robotica.

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran Luo2026-03-11💻 cs

Compartmentalization-Aware Automated Program Repair

Questo lavoro presenta un nuovo framework di riparazione automatica dei programmi basato su modelli linguistici di grandi dimensioni, progettato specificamente per identificare e correggere le vulnerabilità alle interfacce tra compartimenti in software compartimentalizzato, superando i limiti degli approcci APR generici.

Jia Hu, Youcheng Sun, Pierre Olivier2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Questo studio presenta un'analisi completa e comparativa di diversi metodi di imaging non in linea di vista (NLOS) basati sul tempo di volo, unificandone la formulazione teorica e l'hardware per valutarne le prestazioni, le limitazioni e le somiglianze in condizioni sperimentali controllate.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

Enabling Multi-Client Authorization in Dynamic SSE

Il paper propone MASSE, uno schema di crittografia ricercabile simmetrica (SSE) dinamico e multi-cliente che integra il controllo degli accessi basato sugli attributi per garantire ricerche sicure e granulari su dati cifrati nel cloud, consentendo aggiornamenti e revoca senza ri-crittografare il database.

Seydina Ousmane Diallo, Maryline Laurent, Nesrine Kaaniche2026-03-11💻 cs

← Precedente Successivo →