cs.AI articoli | Gist.Science

Dynamic Chunking Diffusion Transformer

Il paper introduce il Dynamic Chunking Diffusion Transformer (DC-DiT), un modello che migliora l'efficienza computazionale e la qualità della generazione delle immagini adattando dinamicamente il numero di token in base alla complessità visiva e allo stadio di denoising, ottenendo risultati superiori rispetto ai DiT tradizionali con un costo di addestramento ridotto.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing

Il paper presenta CLAIRE, un framework ibrido di deep learning che combina autoencoder e classificazione supervisionata per migliorare il rilevamento dei guasti nella manifattura intelligente, offrendo allo stesso tempo interpretabilità delle previsioni tramite tecniche basate sulla teoria dei giochi.

Mohammadhossein Ghahramani, Mengchu Zhou2026-03-09🤖 cs.AI

ESAA-Security: An Event-Sourced, Verifiable Architecture for Agent-Assisted Security Audits of AI-Generated Code

Il documento presenta ESAA-Security, un'architettura di audit di sicurezza basata su eventi e verificabile che trasforma la revisione del codice generato dall'IA da una conversazione libera in un processo governato e riproducibile, separando la cognizione degli agenti dalle mutazioni di stato per garantire tracciabilità e integrità dei risultati.

Elzo Brito dos Santos Filho2026-03-09🤖 cs.AI

Kinetic-based regularization: Learning spatial derivatives and PDE applications

Il paper estende la regolarizzazione basata sulla cinetica (KBR) per stimare con precisione le derivate spaziali da dati discreti e rumorosi, proponendo schemi espliciti e impliciti che garantiscono convergenza quadratica e permettendo la risoluzione stabile di equazioni differenziali alle derivate parziali iperboliche su nuvole di punti irregolari.

Abhisek Ganguly, Santosh Ansumali, Sauro Succi2026-03-09🤖 cs.AI

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

Questo lavoro propone un framework di addestramento "prompt-group-aware" che, organizzando prompt semanticamente equivalenti in gruppi e applicando regolarizzazione e vincoli di coerenza, migliora la robustezza e la generalizzazione della segmentazione guidata da testo dei nuclei cellulari senza modificare l'architettura o l'inferenza dei modelli fondazione.

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

Talk Freely, Execute Strictly: Schema-Gated Agentic AI for Flexible and Reproducible Scientific Workflows

Il paper propone un'architettura di orchestrazione "schema-gated" che risolve il compromesso tra flessibilità conversazionale e determinismo esecutivo nei flussi di lavoro scientifici, separando l'autorità dialogica da quella operativa per garantire riproducibilità e governance senza rigidità.

Joel Strickland, Arjun Vijeta, Chris Moores, Oliwia Bodek, Bogdan Nenchev, Thomas Whitehead, Charles Phillips, Karl Tassenberg, Gareth Conduit, Ben Pellegrini2026-03-09🤖 cs.AI

Physical Simulator In-the-Loop Video Generation

Il paper introduce PSIVG, un nuovo framework che integra un simulatore fisico nel processo di generazione video basata su diffusione per garantire che i movimenti degli oggetti rispettino le leggi della fisica, migliorando così la coerenza spaziotemporale e la realismo dei video generati.

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

A Reference Architecture of Reinforcement Learning Frameworks

Questo articolo propone un'architettura di riferimento per i framework di apprendimento per rinforzo, derivata dall'analisi di 18 sistemi all'avanguardia tramite l'approccio della teoria fondata, al fine di stabilire una base comune per il confronto, la valutazione e l'integrazione di tali tecnologie.

Xiaoran Liu, Istvan David2026-03-09🤖 cs.AI

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

Il paper presenta CLoPA, una strategia di adattamento continuo che ottimizza una piccola frazione dei parametri del modello nnInteractive su dati annotati in tempo reale, elevando rapidamente le prestazioni della segmentazione interattiva a livelli esperti su diverse attività mediche senza richiedere modifiche al flusso di lavoro o nuovi parametri.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

Abductive Reasoning with Syllogistic Forms in Large Language Models

Questo studio valuta la capacità dei modelli linguistici di grandi dimensioni di eseguire ragionamenti abduttivi, convertendo un dataset sillogistico per verificare se tali modelli presentino bias simili a quelli umani e per sottolineare l'importanza del ragionamento contestualizzato oltre la deduzione formale.

Hirohiko Abe, Risako Ando, Takanobu Morishita Kentaro Ozeki, Koji Mineshima, Mitsuhiro Okada2026-03-09🤖 cs.AI

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Il paper propone una strategia di post-addestramento basata su confini prosodici per modelli TTS LLM, che risolve le sfide della generazione in streaming con input testuale incrementale prevenendo il crollo del contesto e migliorando significativamente la qualità dell'audio e la precisione lessicale.

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong Chng2026-03-09🤖 cs.AI

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Il paper dimostra che i modelli fondazionali vision-language possiedono una ricca conoscenza geometrica nei loro feature congelati, accessibile tramite semplici sonde lineari con alta precisione, rivelando che le limitazioni nella misurazione fisica derivano principalmente da deficit nel percorso di generazione testuale e non dalla rappresentazione visiva stessa.

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

PONTE: Personalized Orchestration for Natural Language Trustworthy Explanations

Il paper presenta PONTE, un framework human-in-the-loop che supera i limiti delle spiegazioni XAI generiche e delle allucinazioni degli LLM, orchestando la generazione di narrazioni personalizzate e affidabili attraverso un ciclo chiuso di validazione, adattamento basato su feedback utente e verifica rigorosa della fedeltà e completezza.

Vittoria Vineis, Matteo Silvestri, Lorenzo Antonelli, Filippo Betello, Gabriele Tolomei2026-03-09🤖 cs.AI

NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches

Il paper introduce NOBLE, un'architettura che accelera l'addestramento dei transformer da zero mediante rami a basso rango non lineari permanenti, ottenendo significativi miglioramenti nell'efficienza e nella velocità di convergenza con un minimo sovraccarico di parametri.

Ethan Smith (Canva Research)2026-03-09🤖 cs.AI

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

Il paper presenta COLD-Steer, un framework senza addestramento che controlla il comportamento dei grandi modelli linguistici durante l'inferenza approssimando le dinamiche di apprendimento in un solo passo tramite esempi in contesto, ottenendo un'efficacia di steering fino al 95% con 50 volte meno campioni rispetto alle migliori tecniche esistenti.

Kartik Sharma, Rakshit S. Trivedi2026-03-09🤖 cs.AI

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Questo studio presenta un sistema di intelligenza artificiale addestrato su oltre 45.000 immagini ecografiche che non solo diagnostica le fessure orofacciali fetali con un'accuratezza pari a quella dei radiologi esperti, ma funge anche da strumento didattico efficace per migliorare le capacità diagnostiche dei radiologi meno esperti.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

Il paper presenta RAMoEA-QA, un modello generativo gerarchico che utilizza un meccanismo di routing a due stadi per specializzare dinamicamente l'elaborazione audio e la generazione linguistica, ottenendo prestazioni superiori e una maggiore robustezza nella risposta a domande su registrazioni respiratorie rispetto ai metodi esistenti.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia Mascolo2026-03-09🤖 cs.AI

LiveSense: A Real-Time Wi-Fi Sensing Platform for Range-Doppler on COTS Laptop

Il paper presenta LiveSense, una piattaforma cross-platform che trasforma schede di rete Wi-Fi commerciali (COTS) su laptop in sensori Range-Doppler in tempo reale con precisione centimetrica, permettendo l'estrazione sincronizzata di informazioni sullo stato del canale, l'annullamento dell'auto-interferenza e il rilevamento di distanza, velocità e micro-movimenti senza compromettere la comunicazione.

Jessica Sanson, Rahul C. Shah, Maximilian Pinaroc, Cagri Tanriover, Valerio Frascolla2026-03-09🤖 cs.AI

Boosting deep Reinforcement Learning using pretraining with Logical Options

Il paper propone H²RL, un approccio ibrido che utilizza un preaddestramento basato su opzioni logiche per allineare gli agenti di apprendimento per rinforzo profondo, migliorando le decisioni a lungo termine e superando le prestazioni di baselines neurali, simboliche e neuro-simboliche.

Zihan Ye, Phil Chau, Raban Emunds, Jannis Blüml, Cedric Derstroff, Quentin Delfosse, Oleg Arenz, Kristian Kersting2026-03-09🤖 cs.AI

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

Il paper introduce SUREON, un vasto dataset di domande e risposte estratto da video chirurgici accademici, e due modelli di visione-linguaggio (SureonVLM e SureonVLM-R1) che, grazie a questo addestramento su ragionamento chirurgico, superano i modelli generici nel comprendere intenti, rischi e previsioni durante gli interventi.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

← Precedente Successivo →