cs articoli | Gist.Science

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization

Il paper presenta KnowDiffuser, un framework di pianificazione del movimento guidato dalla conoscenza che integra la capacità semantica dei modelli linguistici con la potenza generativa dei modelli di diffusione per colmare il divario tra comprensione semantica e fattibilità fisica nella guida autonoma, ottenendo risultati superiori sul benchmark nuPlan.

Fan Ding, Xuewen Luo, Fengze Yang, Bo Yu, HwaHui Tew, Ganesh Krishnasamy, Junn Yong Loo2026-03-12💻 cs

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

Il paper presenta SignSparK, un nuovo framework multilingue per la produzione di lingua dei segni che supera i limiti degli approcci attuali combinando segmentazione temporale automatizzata, apprendimento basato su fotogrammi chiave sparsi e un modello di flusso condizionato per generare avatar di firma 3D fluidi, linguisticamente accurati e fotorealistici.

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

Il paper introduce DiT4DiT, un modello end-to-end che combina trasformatori di diffusione per video e azioni per apprendere la dinamica fisica e le azioni robotiche, ottenendo prestazioni all'avanguardia e un'efficienza di campionamento superiore rispetto ai modelli VLA tradizionali.

Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang2026-03-12💻 cs

Machinagogy: Experiments in Staging Teaching Dramas with LLMs

Il saggio presenta "Machinagogy", un sistema di tutoraggio AI fondato su riconoscimento hegeliano e psicanalisi freudiana che, attraverso una metodologia riflessiva di "vibe scholarship" con Claude Code, dimostra come prompt potenziati dal riconoscimento migliorino significativamente le prestazioni dei tutor indipendentemente dal modello, sollevando al contempo riflessioni critiche sulle dinamiche relazionali tra studenti, insegnanti e assistenti di ricerca.

Liam Magee2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

Questo articolo presenta LCAMV, un metodo innovativo per la ricostruzione 3D ad alta precisione di oggetti colorati che, correggendo l'aberrazione cromatica laterale e fondendo i dati dei canali RGB tramite un modello di rumore Poisson-Gaussian, supera i limiti delle tecniche tradizionali senza richiedere hardware aggiuntivo o acquisizioni multiple.

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

SUBTA: A Framework for Supported User-Guided Bimanual Teleoperation in Structured Assembly

Il paper presenta SUBTA, un sistema di teleoperazione bimanuale assistita che combina stima delle intenzioni umane, pianificazione basata su grafi di scena e assistenza contestuale, dimostrando attraverso uno studio utente significativi miglioramenti nella precisione e nella riduzione del carico mentale rispetto alla teleoperazione standard.

Xiao Liu, Prakash Baskaran, Songpo Li, Simon Manschitz, Wei Ma, Dirk Ruiken, Soshi Iba2026-03-12💻 cs

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Questo articolo introduce WanderBench, il primo benchmark globale per il ragionamento geolocalizzativo attivo, e GeoAoT, un framework che migliora le capacità di localizzazione globale dei modelli multimodali di grandi dimensioni combinando il ragionamento con azioni fisiche di esplorazione interattiva.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min2026-03-12💻 cs

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Il paper presenta MoXaRt, un sistema XR in tempo reale che utilizza un'architettura cascata audio-visiva per isolare fino a cinque fonti sonore simultanee, migliorando significativamente l'intelligibilità del parlato e riducendo il carico cognitivo in ambienti acustici complessi.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle2026-03-12💻 cs

DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference

DepthCache è un framework senza addestramento che accelera l'inferenza dei modelli Vision-Language-Action riducendo la latenza attraverso la compressione guidata dalla profondità dei token visivi, preservando le prestazioni nel controllo robotico reale.

Yuquan Li, Lianjie Ma, Han Ding, Lijun Zhu2026-03-12💻 cs

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

Il paper presenta CIPHER, un metodo senza addestramento che sopprime le allucinazioni visive nei modelli linguaggio-visione di grandi dimensioni proiettando gli stati nascosti intermedi lontano da un sottospazio a basso rango identificato tramite un dataset di controfattuali generati con diffusione.

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

From Verification to Herding: Exploiting Software's Sparsity of Influence

Il paper propone un passaggio dalla verifica costosa al "herding" basato sulla sparsità di influenza, introducendo EZR, un apprendista stocastico che raggiunge il 90% dei risultati ottimali con soli 32 campioni evitando solutori complessi.

Tim Menzies, Kishan Kumar Ganguly2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

Il paper presenta StructDamage, un nuovo dataset su larga scala composto da oltre 78.000 immagini di nove diversi tipi di superfici, creato aggregando e armonizzando 32 dataset pubblici per migliorare la rilevazione robusta e generalizzabile di crepe e difetti strutturali tramite tecniche di deep learning.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Questo articolo propone una rete neurale auto-supervisionata basata su autoencoder per l'apprendimento spaziale dei picchi nell'imaging di spettrometria di massa, combinata con una procedura di valutazione fondata su maschere di segmentazione annotate da esperti, che supera i metodi esistenti selezionando picchi strutturalmente spaziali su diversi dataset pubblici.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

Il paper presenta IMTBench, un nuovo benchmark di 2.500 campioni che valuta la traduzione automatica end-to-end di testo nelle immagini attraverso scenari reali e metriche multimodali, rivelando significative lacune nelle prestazioni attuali dei modelli.

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Efficiency vs Demand in AI Electricity: Implications for Post-AGI Scaling

Questo studio integra il settore del calcolo AI nel modello GCAM per dimostrare che la futura domanda elettrica dell'AI negli Stati Uniti non seguirà una crescita lineare, ma dipenderà criticamente dal bilanciamento tra i progressi nell'efficienza energetica e la crescita del reddito, suggerendo che i meccanismi basati sui prezzi hanno un impatto limitato rispetto alle dinamiche economiche.

Doyi Kim, Jiseok Ahn, Haewon McJeon, Changick Kim2026-03-12💻 cs

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

Il paper propone un nuovo metodo di flusso autoregressivo con vincoli mal condizionati che scompone il ripristino di immagini UHD in un processo progressivo da grossolano a fine, utilizzando il Flow Matching e una regolarizzazione numerica per bilanciare il recupero di dettagli fini e l'efficienza computazionale.

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

Il paper propone un framework di disaccoppiamento semantico guidato visivamente che, allineando i prior visivi con i testi clinici e utilizzando un modulo di fusione ibrida in un Diffusion Transformer, supera le limitazioni dei modelli generativi attuali per produrre immagini mediche di alta qualità con un controllo fine-granulare della struttura anatomica.

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

Il paper propone STEPH, un nuovo metodo che utilizza mixup di vettori di task sparsi e iperreti per trasferire efficientemente conoscenze prognostiche tra diversi tipi di cancro nelle immagini whole-slide, migliorando le prestazioni senza richiedere addestramenti congiunti su larga scala o inferenze multiple.

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

BinWalker: Development and Field Evaluation of a Quadruped Manipulator Platform for Sustainable Litter Collection

Il paper presenta BinWalker, un sistema robotico quadrupede con braccio manipolatore progettato per la raccolta autonoma di rifiuti in ambienti esterni difficili, dimostrando attraverso valutazioni sul campo la fattibilità di integrare locomozione, percezione e manipolazione per supportare operazioni di pulizia su larga scala.

Giulio Turrisi, Angelo Bratta, Giovanni Minelli, Gabriel Fischer Abati, Amir H. Rad, João Carlos Virgolino Soares, Claudio Semini2026-03-12💻 cs

Graphing Inline: Understanding Word-scale Graphics Use in Scientific Papers

Questo studio analizza l'uso raro ma significativo dei grafici in scala tipografica nei documenti scientifici attraverso un corpus di oltre 126.000 articoli, proponendo un framework che ne descrive posizione, funzione comunicativa e rappresentazione visiva per migliorare la comunicazione accademica.

Siyu Lu, Yanhan Liu, Shiyu Xu, Ruishi Zou, Chen Ye2026-03-12💻 cs

← Precedente Successivo →