cs articoli | Gist.Science

World2Act: Latent Action Post-Training via Skill-Compositional World Models

Il paper presenta World2Act, un framework di post-addestramento che allinea le azioni dei modelli Vision-Language-Action direttamente con i latenti dinamici dei World Models tramite un obiettivo contrastivo e una decomposizione automatica delle abilità, superando i limiti legati alla supervisione pixel e alla durata variabile delle esecuzioni per migliorare la generalizzazione degli agenti embodied.

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

Reconstructing Bounded Treelength Graphs with Linearithmic Shortest Path Distance Queries

Il paper presenta un algoritmo deterministico che ricostruisce i grafi con treelength limitata e grado massimo limitato utilizzando un numero di query di distanza $O(n \log n)$ , migliorando di un fattore logaritmico le migliori conoscenze precedenti e raggiungendo il limite inferiore noto per i grafi a cordalità limitata.

Chirag Kaudan (Oregon State University), Amir Nayyeri (Oregon State University)2026-03-12💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

Il paper presenta COHORT, un framework basato su ROS che utilizza un approccio ibrido di apprendimento per rinforzo (offline e online) per ottimizzare l'inferenza collaborativa di grandi reti neurali su sistemi multi-robot, riducendo il consumo energetico e migliorando l'utilizzo della GPU nel rispetto dei vincoli temporali reali.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya Roy2026-03-12💻 cs

A Secure Splitting and Acceleration Strategy for TCP/QUIC in Interplanetary Networks

Il paper propone PEPspace, una strategia di accelerazione sicura per reti interplanetarie basata sull'architettura NTSP che, attraverso la separazione delle connessioni, un controllo di congestione a tasso e la correzione degli errori adattiva, supera le limitazioni di TCP e QUIC garantendo un'efficienza e una stabilità superiori nelle comunicazioni spaziali.

Jianhao Yu, Ye Li, Qingfang Jiang, Shuai Liu, Wenfeng Li, Kanglian Zhao2026-03-12💻 cs

AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory

Il paper presenta AsyncMDE, un sistema di stima della profondità monoculare in tempo reale che utilizza un modello fondazionale asincrono e un modello leggero per ridurre drasticamente i costi computazionali e abilitare il deployment su piattaforme edge mantenendo un'elevata accuratezza.

Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu2026-03-12💻 cs

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization

Il paper presenta KnowDiffuser, un framework di pianificazione del movimento guidato dalla conoscenza che integra la capacità semantica dei modelli linguistici con la potenza generativa dei modelli di diffusione per colmare il divario tra comprensione semantica e fattibilità fisica nella guida autonoma, ottenendo risultati superiori sul benchmark nuPlan.

Fan Ding, Xuewen Luo, Fengze Yang, Bo Yu, HwaHui Tew, Ganesh Krishnasamy, Junn Yong Loo2026-03-12💻 cs

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

Il paper presenta SignSparK, un nuovo framework multilingue per la produzione di lingua dei segni che supera i limiti degli approcci attuali combinando segmentazione temporale automatizzata, apprendimento basato su fotogrammi chiave sparsi e un modello di flusso condizionato per generare avatar di firma 3D fluidi, linguisticamente accurati e fotorealistici.

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

Il paper introduce DiT4DiT, un modello end-to-end che combina trasformatori di diffusione per video e azioni per apprendere la dinamica fisica e le azioni robotiche, ottenendo prestazioni all'avanguardia e un'efficienza di campionamento superiore rispetto ai modelli VLA tradizionali.

Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang2026-03-12💻 cs

Machinagogy: Experiments in Staging Teaching Dramas with LLMs

Il saggio presenta "Machinagogy", un sistema di tutoraggio AI fondato su riconoscimento hegeliano e psicanalisi freudiana che, attraverso una metodologia riflessiva di "vibe scholarship" con Claude Code, dimostra come prompt potenziati dal riconoscimento migliorino significativamente le prestazioni dei tutor indipendentemente dal modello, sollevando al contempo riflessioni critiche sulle dinamiche relazionali tra studenti, insegnanti e assistenti di ricerca.

Liam Magee2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

Questo articolo presenta LCAMV, un metodo innovativo per la ricostruzione 3D ad alta precisione di oggetti colorati che, correggendo l'aberrazione cromatica laterale e fondendo i dati dei canali RGB tramite un modello di rumore Poisson-Gaussian, supera i limiti delle tecniche tradizionali senza richiedere hardware aggiuntivo o acquisizioni multiple.

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

SUBTA: A Framework for Supported User-Guided Bimanual Teleoperation in Structured Assembly

Il paper presenta SUBTA, un sistema di teleoperazione bimanuale assistita che combina stima delle intenzioni umane, pianificazione basata su grafi di scena e assistenza contestuale, dimostrando attraverso uno studio utente significativi miglioramenti nella precisione e nella riduzione del carico mentale rispetto alla teleoperazione standard.

Xiao Liu, Prakash Baskaran, Songpo Li, Simon Manschitz, Wei Ma, Dirk Ruiken, Soshi Iba2026-03-12💻 cs

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Questo articolo introduce WanderBench, il primo benchmark globale per il ragionamento geolocalizzativo attivo, e GeoAoT, un framework che migliora le capacità di localizzazione globale dei modelli multimodali di grandi dimensioni combinando il ragionamento con azioni fisiche di esplorazione interattiva.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min2026-03-12💻 cs

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Il paper presenta MoXaRt, un sistema XR in tempo reale che utilizza un'architettura cascata audio-visiva per isolare fino a cinque fonti sonore simultanee, migliorando significativamente l'intelligibilità del parlato e riducendo il carico cognitivo in ambienti acustici complessi.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle2026-03-12💻 cs

DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference

DepthCache è un framework senza addestramento che accelera l'inferenza dei modelli Vision-Language-Action riducendo la latenza attraverso la compressione guidata dalla profondità dei token visivi, preservando le prestazioni nel controllo robotico reale.

Yuquan Li, Lianjie Ma, Han Ding, Lijun Zhu2026-03-12💻 cs

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

Il paper presenta CIPHER, un metodo senza addestramento che sopprime le allucinazioni visive nei modelli linguaggio-visione di grandi dimensioni proiettando gli stati nascosti intermedi lontano da un sottospazio a basso rango identificato tramite un dataset di controfattuali generati con diffusione.

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

From Verification to Herding: Exploiting Software's Sparsity of Influence

Il paper propone un passaggio dalla verifica costosa al "herding" basato sulla sparsità di influenza, introducendo EZR, un apprendista stocastico che raggiunge il 90% dei risultati ottimali con soli 32 campioni evitando solutori complessi.

Tim Menzies, Kishan Kumar Ganguly2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

Il paper presenta StructDamage, un nuovo dataset su larga scala composto da oltre 78.000 immagini di nove diversi tipi di superfici, creato aggregando e armonizzando 32 dataset pubblici per migliorare la rilevazione robusta e generalizzabile di crepe e difetti strutturali tramite tecniche di deep learning.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Questo articolo propone una rete neurale auto-supervisionata basata su autoencoder per l'apprendimento spaziale dei picchi nell'imaging di spettrometria di massa, combinata con una procedura di valutazione fondata su maschere di segmentazione annotate da esperti, che supera i metodi esistenti selezionando picchi strutturalmente spaziali su diversi dataset pubblici.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

Il paper presenta IMTBench, un nuovo benchmark di 2.500 campioni che valuta la traduzione automatica end-to-end di testo nelle immagini attraverso scenari reali e metriche multimodali, rivelando significative lacune nelle prestazioni attuali dei modelli.

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Efficiency vs Demand in AI Electricity: Implications for Post-AGI Scaling

Questo studio integra il settore del calcolo AI nel modello GCAM per dimostrare che la futura domanda elettrica dell'AI negli Stati Uniti non seguirà una crescita lineare, ma dipenderà criticamente dal bilanciamento tra i progressi nell'efficienza energetica e la crescita del reddito, suggerendo che i meccanismi basati sui prezzi hanno un impatto limitato rispetto alle dinamiche economiche.

Doyi Kim, Jiseok Ahn, Haewon McJeon, Changick Kim2026-03-12💻 cs

← Precedente Successivo →