cs.AI articoli | Gist.Science

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Questo studio utilizza tecniche di interpretabilità per dimostrare che i grandi modelli linguistici generalizzano compiti nuovi tramite un meccanismo di "induzione di funzioni", in cui più testine di attenzione collaborano per apprendere e riutilizzare strutture astratte come l'addizione con uno spostamento.

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

VITA: Vision-to-Action Flow Matching Policy

Il paper presenta VITA, un framework di apprendimento per politiche di flusso che mappano direttamente le rappresentazioni visive in azioni latenti senza rumore o condizionamento visivo iterativo, ottenendo un'inferenza più rapida e prestazioni competitive rispetto ai metodi tradizionali.

Dechen Gao, Boqi Zhao, Andrew Lee + 6 more2026-03-05🤖 cs.AI

HAMLET: A Hierarchical and Adaptive Multi-Agent Framework for Live Embodied Theatrics

Il paper presenta HAMLET, un framework gerarchico e adattivo basato su agenti multipli che utilizza modelli linguistici di grandi dimensioni per generare e gestire spettacoli teatrali interattivi e corporei in tempo reale, permettendo agli attori autonomi di prendere decisioni basate su personaggi e memoria e di interagire fisicamente con l'ambiente scenico.

Shufan Jiang, Sizhou Chen, Chi Zhang + 2 more2026-03-05🤖 cs.AI

From Privacy to Trust in the Agentic Era: A Taxonomy of Challenges in Trustworthy Federated Learning Through the Lens of Trust Report 2.0

Il documento propone una tassonomia delle sfide e un piano di coordinamento per il Federated Learning affidabile nell'era degli agenti autonomi, introducendo il "Trust Report 2.0" come artefatto leggero per garantire la fiducia attraverso evidenze decisionali nel rispetto della privacy, con una validazione applicata al settore sanitario oncologico.

Nuria Rodríguez-Barroso, Mario García-Márquez, M. Victoria Luzón + 1 more2026-03-05🤖 cs.AI

Self-Supervised Inductive Logic Programming

Il paper presenta Poker, un nuovo sistema di Programmazione Logica Induttiva (ILP) auto-supervisionato che, in assenza di esempi negativi e di una teoria di fondo specifica, apprende programmi logici ricorsivi generando automaticamente nuovi esempi e utilizzando una teoria di fondo di secondo ordine standardizzata, superando così le limitazioni di generalizzazione eccessiva riscontrate in sistemi esistenti come Louise.

Stassa Patsantzis2026-03-05🤖 cs.AI

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

Il paper presenta Text2VLM, un nuovo pipeline che adatta dataset testuali-only in formati multimodali per valutare la resilienza dei modelli linguistici visivi contro attacchi di iniezione di prompt tipografici, rivelando vulnerabilità critiche e un divario prestazionale rispetto ai modelli proprietari.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Serendipitous Recommendation

Questo articolo propone il metodo Co-Evolutionary Alignment (CoEA), che combina il modulo Dual-Stable Interest Exploration (DSIE) per modellare sia le identità di gruppo a lungo termine che gli interessi individuali a breve termine, e il meccanismo Periodic Collaborative Optimization (PCO) per un'ottimizzazione dinamica a ciclo chiuso, al fine di migliorare la serendipità nei sistemi di raccomandazione superando i limiti dei modelli tradizionali e delle attuali architetture basate su LLM.

Hongxiang Lin, Hao Guo, Zeshun Li + 6 more2026-03-05🤖 cs.AI

WebDS: An End-to-End Benchmark for Web-based Data Science

Il paper introduce WebDS, il primo benchmark end-to-end per la data science basata sul web, che evidenzia il significativo divario tra le prestazioni degli attuali agenti LLM e quelle umane nella gestione di compiti complessi e multi-step su siti web eterogenei.

Ethan Hsu, Hong Meng Yam, Ines Bouissou + 9 more2026-03-05🤖 cs.AI

ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools

Il paper introduce ToolVQA, un dataset multimodale su larga scala di 23.000 istanze generato tramite la pipeline ToolEngine, progettato per migliorare le capacità di ragionamento multi-step e l'uso di strumenti esterni nei Large Foundation Models, permettendo loro di superare modelli proprietari come GPT-3.5-turbo in scenari reali complessi.

Shaofeng Yin, Ting Lei, Yang Liu2026-03-05🤖 cs.AI

ERDES: A Benchmark Video Dataset for Retinal Detachment and Macular Status Classification in Ocular Ultrasound

Il paper introduce ERDES, il primo dataset aperto di video ecografici oculari etichettati per la rilevazione del distacco di retina e la classificazione dello stato maculare, fornendo benchmark per modelli di deep learning volti a supportare la diagnosi rapida in ambito clinico.

Yasemin Ozkut, Pouyan Navard, Srikar Adhikari + 4 more2026-03-05🤖 cs.AI

Effective Sample Size and Generalization Bounds for Temporal Networks

Il paper propone una metodologia di valutazione dipendente dalla struttura temporale che controlla la dimensione campionaria effettiva, fornendo garanzie di generalizzazione per le TCN su sequenze $\beta$ -miste e dimostrando empiricamente che un controllo rigoroso della dipendenza temporale rivela tassi di convergenza significativamente più rapidi rispetto alle valutazioni standard.

Barak Gahtan, Alex M. Bronstein2026-03-05🤖 cs.AI

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

Il paper propone ObfusQAte, un nuovo framework che introduce il dataset ObfusQA per valutare la robustezza dei modelli linguistici di grandi dimensioni di fronte a domande fattuali oscurate, rivelando la loro tendenza a fallire o allucinazioni quando confrontati con livelli crescenti di indirection e sovraccarico contestuale.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI

Zono-Conformal Prediction: Zonotope-Based Uncertainty Quantification for Regression and Classification Tasks

Il paper introduce la "zono-conformal prediction", un nuovo metodo di quantificazione dell'incertezza che utilizza zonotopi per generare set di previsioni con garanzie di copertura statistiche, offrendo una soluzione più efficiente e meno conservativa rispetto alle tecniche conformali tradizionali sia per compiti di regressione che di classificazione.

Laura Lützow, Michael Eichelbeck, Mykel J. Kochenderfer + 1 more2026-03-05🤖 cs.AI

Adaptive Quantized Planetary Crater Detection System for Autonomous Space Exploration

Questo documento concettuale propone l'Adaptive Quantized Planetary Crater Detection System (AQ-PCDSys), un'architettura che integra reti neurali quantizzate e fusione adattiva di sensori per abilitare il rilevamento in tempo reale dei crateri planetari su hardware spaziale con risorse computazionali e energetiche estremamente limitate.

Aditri Paul, Archan Paul2026-03-05🤖 cs.AI

Leveraging Imperfection with MEDLEY A Multi-Model Approach Harnessing Bias in Medical AI

Il paper propone MEDLEY, un framework concettuale che trasforma i pregiudizi e le imperfezioni dei modelli di intelligenza artificiale medica da difetti da eliminare in risorse preziose, orchestrando una diversità di modelli per rendere trasparenti le incertezze diagnostiche e supportare la supervisione clinica.

Farhad Abtahi, Mehdi Astaraki, Fernando Seoane2026-03-05🤖 cs.AI

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

Il paper propone un framework di pruning dei token leggero che preserva gli indici, filtrando le regioni non informative delle immagini di documenti tramite un classificatore binario e un raffinamento con max-pooling per ridurre i costi computazionali dei modelli visione-linguaggio mantenendo l'accuratezza.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

Performance Assessment Strategies for Generative AI Applications in Healthcare

Questo articolo esamina le strategie di valutazione delle applicazioni di intelligenza artificiale generativa in ambito sanitario, evidenziando i limiti dei benchmark quantitativi attuali e promuovendo l'adozione di metodologie che integrano l'expertise umana e modelli computazionali efficienti per garantire una maggiore generalizzabilità nelle reali condizioni cliniche.

Victor Garcia, Mariia Sidulova, Aldo Badano2026-03-05🤖 cs.AI

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

Questo studio presenta un approccio basato su agenti LLM per lo sviluppo di software giuridicamente critico, come quello per la preparazione delle tasse, che supera le limitazioni dei modelli frontieri utilizzando relazioni metamorfiche di ordine superiore per generare automaticamente casi di test e sintetizzare codice affidabile.

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha + 1 more2026-03-05🤖 cs.AI

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

Il paper propone StaR, un metodo di ragionamento multimodale che identifica lo stato degli interruttori nelle interfacce grafiche per migliorare l'accuratezza degli agenti nell'esecuzione di comandi di toggle, superando le limitazioni delle soluzioni attuali.

Zongru Wu, Rui Mao, Zhiyuan Tian + 7 more2026-03-05🤖 cs.AI

MeanFlowSE: one-step generative speech enhancement via conditional mean flow

Il paper introduce MeanFlowSE, un modello generativo condizionale che supera il collo di bottiglia dell'inferenza multistep nell'enhancement vocale in tempo reale apprendendo la velocità media su intervalli finiti per ottenere una generazione in un singolo passaggio ad alta fedeltà senza necessità di distillazione della conoscenza.

Duojia Li, Shenghui Lu, Hongchen Pan + 3 more2026-03-05🤖 cs.AI

← Precedente Successivo →