cs articoli | Gist.Science

A Robust Deep Learning Framework for Bangla License Plate Recognition Using YOLO and Vision-Language OCR

Questo articolo presenta un framework di deep learning robusto per il riconoscimento delle targhe bengalesi, che combina un modello di rilevamento YOLOv8 ottimizzato con una strategia di addestramento adattiva e un sistema OCR basato su ViT e BanglaBERT, ottenendo un'accuratezza del 97,83% e dimostrando elevata resilienza in scenari reali complessi.

Nayeb Hasin, Md. Arafath Rahman Nishat, Mainul Islam, Khandakar Shakib Al Hasan, Asif Newaz2026-03-12💻 cs

SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments

Il paper introduce SpecOps, un framework di testing completamente automatizzato che utilizza agenti AI specializzati per valutare in modo efficace e scalabile le prestazioni e rilevare bug in agenti GUI reali, superando le soluzioni esistenti in termini di accuratezza ed efficienza.

Syed Yusuf Ahmed, Shiwei Feng, Chanwoo Bae, Calix Barrus Xiangyu Zhang2026-03-12💻 cs

HiFIVE: High-Fidelity Vector-Tile Reduction for Interactive Map Exploration

Il paper presenta HiFIVE, un framework di gestione dati che risolve il problema NP-difficile della riduzione delle piastrelle vettoriali per la visualizzazione geospaziale interattiva su client, garantendo una significativa riduzione delle dimensioni dei dati su scala terabyte senza comprometterne la fedeltà visiva.

Tarlan Bahadori, Ahmed Eldawy2026-03-12💻 cs

Post-Quantum Entropy as a Service for Embedded Systems

Questo lavoro presenta un sistema QEaaS che fornisce entropia quantistica sicura a dispositivi embedded tramite canali post-quantistici, dimostrando che l'autenticazione e lo scambio di chiavi post-quantistici su hardware ESP32 sono non solo fattibili, ma significativamente più veloci delle controparti classiche.

Javier Blanco-Romero, Yuri Melissa Garcia-Niño, Florina Almenares Mendoza, Daniel Díaz-Sánchez, Carlos García-Rubio, Celeste Campo2026-03-12💻 cs

Update-Free On-Policy Steering via Verifiers

Il paper propone UF-OPS, un metodo di steering on-policy senza aggiornamenti dei parametri che utilizza funzioni verificatrici addestrate su dati di rollout per guidare politiche di base come i modelli diffusion verso azioni più probabili, migliorando significativamente il successo nelle manipolazioni robotiche sia in simulazione che nel mondo reale.

Maria Attarian, Ian Vyse, Claas Voelcker, Jasper Gerigk, Evgenii Opryshko, Anas Almasri, Sumeet Singh, Yilun Du, Igor Gilitschenski2026-03-12💻 cs

Instant Runoff Voting on Graphs: Exclusion Zones and Distortion

Questo studio analizza il voto a scrutinio istantaneo (IRV) su grafi non pesanti, dimostrando che il riconoscimento e il calcolo delle zone di esclusione sono risolvibili in tempo polinomiale sugli alberi ma rimangono NP-difficili su grafi generali, fornendo inoltre limiti superiori e inferiori per la distorsione utilitaristica in diversi scenari.

Georgios Birmpas, Georgios Chionas, Efthyvoulos Drousiotis, Soodeh Habibi, Marios Mavronicolas, Paul Spirakis2026-03-12💻 cs

From Imitation to Intuition: Intrinsic Reasoning for Open-Instance Video Classification

Il paper introduce DeepIntuit, un framework che supera i limiti della semplice imitazione nei modelli di classificazione video trasformando l'approccio in un ragionamento intrinco basato su allineamento supervisionato, ottimizzazione tramite GRPO e calibrazione intuitiva per gestire efficacemente le sfide delle istanze aperte.

Ke Zhang, Xiangchen Zhao, Yunjie Tian, Jiayu Zheng, Vishal M. Patel, Di Fu2026-03-12💻 cs

SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning

Il paper introduce ReST-RL, un'architettura di apprendimento per rinforzo gerarchico che, integrando un modulo residuo per la stabilizzazione del carico su una politica di locomozione robusta, risolve con successo il trasporto di carichi su vassoio da parte di umanoidi, garantendo un'eccellente generalizzazione zero-shot dalla simulazione alla realtà su hardware Unitree G1.

Anlun Huang, Zhenyu Wu, Soofiyan Atar, Yuheng Zhi, Michael Yip2026-03-12💻 cs

Towards Modeling Situational Awareness Through Visual Attention in Clinical Simulations

Questo studio preliminare applica l'Analisi delle Reti di Transizione (TNA) ai dati di tracciamento oculare raccolti durante simulazioni di arresto cardiaco in realtà virtuale per dimostrare come l'attenzione visiva dei membri del team clinico si ridistribuisca dinamicamente in base ai ruoli e alle fasi dello scenario, offrendo un metodo promettente per valutare la consapevolezza situazionale e migliorare la formazione.

Haoting Gao, Kapotaksha Das, Mohamed Abouelenien, Michael Cole, James Cooke, Vitaliy Popov2026-03-12💻 cs

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

Il documento presenta PRoADS, un framework di steganografia audio basato su modelli di diffusione che garantisce sicurezza e robustezza attraverso l'ottimizzazione dello spazio latente e l'inversione di Eulero all'indietro, ottenendo un tasso di errore dei bit estremamente basso anche dopo la compressione MP3.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen Ren2026-03-12💻 cs

The Orthogonal Vulnerabilities of Generative AI Watermarks: A Comparative Empirical Benchmark of Spatial and Latent Provenance

Questo studio dimostra empiricamente che i filigrane digitali attuali, operanti esclusivamente nei domini spaziali o latenti, possiedono vulnerabilità ortogonali e mutuamente esclusive che le rendono inefficaci contro gli strumenti di editing generativo moderno, evidenziando così la necessità urgente di architetture crittografiche multi-dominio per garantire una provenienza digitale robusta.

Jesse Yu, Nicholas Wei2026-03-12💻 cs

FC-4DFS: Frequency-controlled Flexible 4D Facial Expression Synthesizing

Il paper presenta FC-4DFS, un metodo innovativo per la sintesi di espressioni facciali 4D che garantisce flessibilità e fluidità temporale grazie a una rete LSTM controllata in frequenza e a una rete di spostamento multi-livello basata su meccanismi di cross-attention, ottenendo risultati all'avanguardia sui dataset CoMA e Florence4D.

Xin Lu, Chuanqing Zhuang. Zhengda Lu, Yiqun Wang, Jun Xiao2026-03-12💻 cs

Fuel Gauge: Estimating Chain-of-Thought Length Ahead of Time in Large Multimodal Models

Il paper presenta "Fuel Gauge", un metodo innovativo che stima in anticipo la lunghezza del ragionamento a catena di pensiero (CoT) nei Modelli Multimodali su larga scala (LMM) analizzando un parametro nascosto, consentendo così un'allocazione più efficiente della memoria e una regolazione ottimale della lunghezza del ragionamento per migliorare le prestazioni e ridurre gli sprechi computazionali.

Yuedong Yang, Xiwen Wei, Mustafa Munir, Radu Marculescu2026-03-12💻 cs

Landmark Guided 4D Facial Expression Generation

Il paper propone LM-4DGAN, un modello generativo che utilizza i landmark facciali neutri, un discriminatore di identità e un autoencoder per sintetizzare espressioni facciali 4D robuste rispetto all'identità, migliorando le soluzioni esistenti che si basano su etichette o parlato.

Xin Lu, Zhengda Lu, Yiqun Wang, Jun Xiao2026-03-12💻 cs

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

Il paper presenta AgentServe, un sistema di serving per AI agenti su GPU consumer che, attraverso la co-progettazione algoritmo-sistema e l'isolamento delle fasi di prefill e decode, garantisce un'esecuzione multi-agente stabile con riduzioni fino a 2,8 volte nel tempo di primo token e 2,7 volte nel tempo per token rispetto alle soluzioni attuali.

Yuning Zhang, Yan Yan, Nan Yang, Dong Yuan2026-03-12💻 cs

EmoStory: Emotion-Aware Story Generation

Il paper introduce EmoStory, un nuovo framework a due stadi che genera storie visive coerenti e soggettivamente consistenti guidate da direzioni emotive esplicite, superando i limiti dei metodi esistenti che trascurano l'impatto emotivo sulla narrazione.

Jingyuan Yang, Rucong Chen, Hui Huang2026-03-12💻 cs

Adaptive Manipulation Potential and Haptic Estimation for Tool-Mediated Interaction

Questo paper introduce un quadro unificato basato su un Manifold di Equilibrio parametrizzato e una strategia di "haptic SLAM" che integra stima aptica, pianificazione online e controllo di impedenza adattivo per raggiungere una destrezza simile a quella umana nella manipolazione mediata da strumenti, come dimostrato da oltre 260 prove reali di allentamento di viti.

Lin Yang, Anirvan Dutta, Yuan Ji, Yanxin Zhou, Shilin Shan, Lv Chen, Etienne Burdet, Domenico Campolo2026-03-12💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

Il paper propone S-HPLB, una strategia di bilanciamento del carico parallelo a livello di testa che sfrutta l'eterogeneità stabile della sparsità nelle teste di attenzione degli LLM per ridurre i tempi di calcolo fino a 2,88 volte senza compromettere la qualità dell'inferenza.

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi Guo2026-03-12💻 cs

StyleGallery: Training-free and Semantic-aware Personalized Style Transfer from Arbitrary Image References

Il paper introduce StyleGallery, un framework di trasferimento di stile personalizzato e privo di addestramento che, attraverso segmentazione semantica, corrispondenza di regioni e ottimizzazione guidata, risolve le limitazioni delle metodologie esistenti garantendo una migliore preservazione del contenuto e una maggiore adattabilità a riferimenti stilistici arbitrari.

Boyu He (College of Computer Science and Technology, National University of Defense Technology), Yunfan Ye (School of Design, Hunan University), Chang Liu (College of Computer Science and Technology, National University of Defense Technology), Weishang Wu (College of Computer Science and Technology, National University of Defense Technology), Fang Liu (School of Design, Hunan University), Zhiping Cai (College of Computer Science and Technology, National University of Defense Technology)2026-03-12💻 cs

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Il paper propone un framework unificato che, manipolando i token visivi tramite calibrazione sinergica e causale delle rappresentazioni latenti, riduce efficacemente le allucinazioni nei modelli multimediali senza richiedere riaddestramento, migliorando la precisione POLO del 2% con un lieve sovraccarico computazionale.

Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi2026-03-12💻 cs

← Precedente Successivo →