cs.AI articoli | Gist.Science

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Questo paper presenta un sistema di inferenza ottimizzato per la generazione video basato su trasformatori di diffusione, che utilizza un'incodifica posizionale 3D sequenziale-parallela con un indice temporale globale per ridurre la latenza e l'uso di memoria, permettendo la generazione di video in tempo reale con qualità comparabile.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Questo studio rivela che, nel contesto medico, il ragionamento a catena di pensiero (CoT) spesso peggiora le prestazioni rispetto alla risposta diretta a causa di un collo di bottiglia nella percezione visiva, ma dimostra che interventi di ancoraggio percettivo e grounding descrittivo possono ripristinare l'accuratezza migliorando l'allineamento cross-modale.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

Il paper presenta SIL-GPO, un framework di apprendimento per rinforzo che utilizza reti di attenzione su grafi e apprendimento per auto-imitazione per ottimizzare l'orchestrazione ibrida di servizi AI e microservizi negli ambienti edge, riducendo significativamente la latenza e migliorando l'utilizzo delle risorse rispetto alle soluzioni esistenti.

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Il paper propone CalibFusion, un rilevatore di fusione radar-camera basato su transformer che apprende end-to-end il raffinamento differenziabile della calibrazione estrinseca per migliorare la rilevazione 2D in ambienti acquatici caratterizzati da texture scarse e clutter radar.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

ERP-RiskBench: Leakage-Safe Ensemble Learning for Financial Risk

Il paper presenta ERP-RiskBench, un nuovo framework sperimentale sicuro dalle fughe di dati che utilizza un ensemble di apprendimento automatico per migliorare il rilevamento dei rischi finanziari nei sistemi ERP, offrendo un benchmark riproducibile e una valutazione rigorosa delle prestazioni.

Sanjay Mishra2026-03-10🤖 cs.LG

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Lo studio dimostra che, sebbene l'inizializzazione con rumore semantico mostri un lieve trend positivo su alcune dimensioni temporali nella generazione video, i risultati complessivi non superano significativamente la baseline con rumore gaussiano a causa di un segnale debole e instabile, suggerendo l'adozione di valutazioni accoppiate e diagnosi nello spazio del rumore come pratica standard.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

Il paper presenta AutoFigure-Edit, un sistema end-to-end che genera illustrazioni scientifiche completamente modificabili e adattabili stilisticamente partendo da testi lunghi, combinando la comprensione del contesto, lo stile guidato da riferimenti e la modifica nativa in SVG.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Questo lavoro presenta un modello ibrido di apprendimento few-shot integrato con l'intelligenza artificiale spiegabile (XAI) per diagnosticare con alta precisione e trasparenza le malattie delle foglie di mais, riso e grano anche in condizioni di dati annotati limitati.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Il paper propone PRPO, un metodo di ottimizzazione parallela per risolvere i conflitti di addestramento nei modelli LVLM per l'analisi dei grafici, e MCDR-Bench, una nuova benchmark per la valutazione oggettiva delle capacità di ricerca approfondita, stabilendo un quadro unificato che supera le attuali limitazioni nell'intelligenza dei dati visivi.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Il paper introduce MultiGen, un motore di gioco basato su diffusione che integra una memoria esterna persistente e modulare per abilitare il controllo modificabile degli utenti sull'ambiente e garantire interazioni coerenti in mondi multiplayer condivisi.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Il paper presenta VB, un nuovo benchmark che valuta la capacità dei modelli visione-linguaggio di determinare la visibilità degli elementi in un'immagine e di astenersi quando la risposta non è affidabile, utilizzando un design sperimentale controllato per misurare l'accuratezza, la robustezza agli editing minimi e il ragionamento prospettico.

Neil Tripathi2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Il paper presenta "Narrative Weaver", un nuovo framework che risolve il problema della coerenza visiva a lungo raggio nella generazione di contenuti AI integrando pianificazione narrativa multimodale, controllo dettagliato e un meccanismo di memoria dinamica, supportato dal primo dataset di benchmark specifico per storyboard pubblicitari.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Questo lavoro introduce un nuovo metodo per migliorare il ragionamento visivo dei modelli visione-linguaggio in ambito medico, utilizzando le traiettorie di sguardo umano come segnale di supervisione temporale per guidare l'acquisizione sequenziale delle evidenze, ottenendo così prestazioni superiori sia in dominio che in scenari zero-shot.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Mining Beyond the Bools: Learning Data Transformations and Temporal Specifications

Questo paper presenta un approccio che estende l'estrazione di specifiche dai tracciati di esecuzione oltre le astrazioni booleane, unendo tecniche di sintesi guidata dalla sintassi e la logica temporale TSL $_f$ per apprendere trasformazioni dei dati e specifiche temporali, dimostrando una maggiore robustezza ed efficienza rispetto ai metodi di apprendimento passivo.

Sam Nicholas Kouteili, William Fishell, Christian Scaff, Mark Santolucito, Ruzica Piskac2026-03-10💻 cs

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

Il paper presenta ATLAS, un framework di reinforcement finetuning che permette ai piccoli modelli linguistici di operare efficacemente in vasti ecosistemi di strumenti, trasformando il controllo del contesto e l'esecuzione in decisioni apprese e utilizzando una ricompensa basata su rubriche per superare i limiti delle risorse e avvicinarsi alle prestazioni dei modelli frontier.

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Questo articolo presenta un approccio di pianificazione gerarchica che combina dati satellitari geostazionari a lungo termine con sensori di bordo a breve termine per migliorare fino al 41% l'efficienza dell'osservazione dinamica dei satelliti, specialmente in scenari con bersagli sparsi come l'evitamento delle nuvole o la caccia alle tempeste.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

ProtAlign: Contrastive learning paradigm for Sequence and structure alignment

Il paper introduce ProtAlign, un framework di apprendimento contrastivo che allinea le rappresentazioni delle sequenze e delle strutture proteiche in uno spazio condiviso per migliorare il recupero incrociato, le previsioni funzionali e l'interpretabilità biologica.

Aditya Ranganath, Hasin Us Sami, Kowshik Thopalli, Bhavya Kailkhura, Wesam Sakla2026-03-10🤖 cs.LG

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Il paper propone UWPD, un nuovo paradigma per la rilevazione universale di filigrane invisibili agnostico agli algoritmi di embedding, supportato dal dataset UniFreq-100K e dal modello FSNet che utilizza modulazioni frequenziali adattive per identificare la presenza di marchi di copyright senza necessità di informazioni di decodifica.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

Bi Directional Feedback Fusion for Activity Aware Forecasting of Indoor CO2 and PM2.5

Il paper propone un framework di fusione a feedback bidirezionale che integra dati ambientali e comportamenti umani per migliorare l'accuratezza delle previsioni della qualità dell'aria interna (CO2 e PM2.5), superando i limiti dei modelli tradizionali attraverso una modellazione adattiva e stime di incertezza interpretabili.

Harshala Gammulle, Lidia Morawska, Sridha Sridharan, Clinton Fookes2026-03-10🤖 cs.LG

Regression Models Meet Foundation Models: A Hybrid-AI Approach to Practical Electricity Price Forecasting

Il paper propone FutureBoosting, un approccio ibrido che potenzia i modelli di regressione per la previsione dei prezzi elettrici integrandoli con caratteristiche predette da modelli fondazione temporali, ottenendo così una riduzione dell'errore superiore al 30% rispetto agli stati dell'arte.

Yunzhong Qiu, Binzhu Li, Hao Wei, Shenglin Weng, Chen Wang, Zhongyi Pei, Mingsheng Long, Jianmin Wang2026-03-10🤖 cs.LG

← Precedente Successivo →