cs.AI articoli | Gist.Science

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

Il paper presenta Tool-Genesis, un benchmark diagnostico che valuta la capacità degli agenti linguistici di creare e utilizzare strumenti autonomamente da requisiti astratti, rivelando come le imperfezioni iniziali nei modelli più avanzati compromettano drasticamente le prestazioni a valle.

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping Luo2026-03-09🤖 cs.AI

Spatiotemporal Heterogeneity of AI-Driven Traffic Flow Patterns and Land Use Interaction: A GeoAI-Based Analysis of Multimodal Urban Mobility

Questo studio propone un quadro analitico GeoAI ibrido che integra MGWR, Random Forest e ST-GCN per modellare con successo l'eterogeneità spaziotemporale dei flussi di traffico multimodali e le loro interazioni con l'uso del suolo, offrendo agli urbanisti uno strumento interpretabile e scalabile per la gestione della mobilità e la progettazione delle politiche territoriali.

Olaf Yunus Laitinen Imanov2026-03-09🤖 cs.AI

On the Value of Tokeniser Pretraining in Physics Foundation Models

Lo studio dimostra che il preaddestramento del tokenizzatore su un sistema fisico specifico migliora significativamente l'efficienza e l'accuratezza dei modelli fondazione per la fisica, riducendo l'errore di 64% rispetto all'addestramento da zero e introducendo nuove operazioni di compressione spaziotemporale adattabili.

Hadi Sotoudeh, Payel Mukhopadhyay, Ruben Ohana, Michael McCabe, Neil D. Lawrence, Shirley Ho, Miles Cranmer2026-03-09🔭 astro-ph

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

DreamCAD è un nuovo framework generativo multimodale che supera le limitazioni dei dati annotati producendo modelli CAD editabili direttamente da supervisione a livello di punti e da un vasto dataset di 1 milione di descrizioni, ottenendo prestazioni all'avanguardia nella generazione di geometrie complesse.

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Real-Time AI Service Economy: A Framework for Agentic Computing Across the Continuum

Questo articolo dimostra che la topologia dei grafi di dipendenza è determinante per la stabilità dei prezzi nell'economia dei servizi AI in tempo reale e propone un'architettura ibrida che, incapsulando sottografi complessi in slice di risorse, riduce la volatilità dei prezzi fino al 75% mantenendo l'efficienza e la conformità alle policy di governance.

Lauri Lovén, Alaa Saleh, Reza Farahani, Ilir Murturi, Miguel Bordallo López, Praveen Kumar Donta, Schahram Dustdar2026-03-09🤖 cs.AI

RACAS: Controlling Diverse Robots With a Single Agentic System

Il paper presenta RACAS, un'architettura agente basata su modelli linguistici che permette il controllo a ciclo chiuso di robot eterogenei tramite descrizioni in linguaggio naturale, eliminando la necessità di riaddestramento o modifiche al codice sorgente quando si cambia piattaforma.

Dylan R. Ashley, Jan Przepióra, Yimeng Chen, Ali Abualsaud, Nurzhan Yesmagambet, Shinkyu Park, Eric Feron, Jürgen Schmidhuber2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

Il paper propone ABRA, un nuovo metodo di generalizzazione di dominio che utilizza l'aumento avversario delle rappresentazioni per correggere gli effetti di batch biologici nelle immagini di screening ad alto contenuto, ottenendo risultati all'avanguardia nella classificazione delle perturbazioni siRNA.

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

Il paper propone il Post Fusion Stabilizer (PFS), un modulo leggero che stabilizza le rappresentazioni BEV intermedie nei sistemi di rilevamento 3D multimodali, migliorando significativamente la robustezza rispetto a guasti dei sensori e cambiamenti di dominio senza richiedere modifiche architetturali o riaddestramento.

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search

Il paper introduce SCOUT, un metodo innovativo che utilizza grafi di scena 3D e una distillazione procedurale offline da grandi modelli linguistici per abilitare una ricerca interattiva di oggetti in ambienti aperti, superando i limiti di velocità e costo delle soluzioni precedenti mantenendo un'efficace generalizzazione semantica.

Imen Mahdi, Matteo Cassinelli, Fabien Despinoy, Tim Welschehold, Abhinav Valada2026-03-09🤖 cs.AI

The Fragility Of Moral Judgment In Large Language Models

Lo studio dimostra che i giudizi morali dei grandi modelli linguistici sono altamente fragili e manipolabili, poiché dipendono in modo critico da fattori superficiali come il punto di vista narrativo e il protocollo di valutazione piuttosto che dalla sostanza etica delle situazioni.

Tom van Nuenen, Pratik S. Sachdeva2026-03-09🤖 cs.AI

The DSA's Blind Spot: Algorithmic Audit of Advertising and Minor Profiling on TikTok

Questo studio dimostra che, sebbene TikTok rispetti formalmente il divieto di pubblicità profilata ai minori previsto dal DSA, aggira tale protezione sfruttando una definizione restrittiva di "pubblicità" che esclude i contenuti promozionali degli influencer, consentendo così una profilazione commerciale nascosta e altamente mirata verso gli adolescenti.

Sara Solarova, Matej Mosnar, Matus Tibensky, Jan Jakubcik, Adrian Bindas, Simon Liska, Filip Hossner, Matúš Mesarčík, Ivan Srba2026-03-09🤖 cs.AI

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Questo paper propone l'Implicit Error Counting (IEC), un metodo di apprendimento per rinforzo senza riferimenti che valuta le risposte enumerando gli errori invece di utilizzare rubriche basate su risposte ideali, dimostrando la sua superiorità nel post-training per il virtual try-on su benchmark specifici.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

SecureRAG-RTL: A Retrieval-Augmented, Multi-Agent, Zero-Shot LLM-Driven Framework for Hardware Vulnerability Detection

Il paper propone SecureRAG-RTL, un innovativo framework basato su Retrieval-Augmented Generation e agenti multipli che, integrando un nuovo dataset di benchmark di 14 progetti HDL vulnerabili, supera le limitazioni dei modelli linguistici nella rilevazione delle vulnerabilità hardware, aumentando l'accuratezza di rilevamento del 30% rispetto ai metodi tradizionali.

Touseef Hasan, Blessing Airehenbuwa, Nitin Pundir, Souvika Sarkar, Ujjwal Guin2026-03-09🤖 cs.AI

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Il paper presenta un nuovo framework longitudinale di inpainting per risonanze magnetiche cerebrali basato su modelli di diffusione 3D region-aware, che supera le tecniche esistenti garantendo maggiore fedeltà percettiva, stabilità temporale ed efficienza computazionale nell'analisi delle lesioni evolutive.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

Autonomous Algorithm Discovery for Ptychography via Evolutionary LLM Reasoning

Il paper presenta Ptychi-Evolve, un framework autonomo che utilizza modelli linguistici di grandi dimensioni e meccanismi evolutivi per scoprire e ottimizzare automaticamente nuove funzioni di regolarizzazione per la ptychografia, ottenendo ricostruzioni di immagini superiori rispetto ai metodi convenzionali.

Xiangyu Yin, Ming Du, Junjing Deng, Zhi Yang, Yimo Han, Yi Jiang2026-03-09🤖 cs.AI

Reasoning Models Struggle to Control their Chains of Thought

Lo studio introduce la suite di valutazione CoT-Control per dimostrare che i modelli di ragionamento attuali possiedono una capacità significativamente inferiore di controllare i propri processi di pensiero rispetto all'output finale, offrendo un motivo per l'ottimismo riguardo alla monitorabilità, sebbene il meccanismo sottostante rimanga poco compreso.

Chen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak2026-03-09🤖 cs.AI

The Rise of AI in Weather and Climate Information and its Impact on Global Inequality

Il paper sostiene che, sebbene l'IA prometta avanzamenti senza precedenti nelle scienze climatiche, il suo attuale sviluppo concentrato nel Nord globale rischia di esacerbare le disuguaglianze Nord-Sud, richiedendo un approccio centrato sui dati, infrastrutture digitali pubbliche e co-produzione della conoscenza per garantire una resilienza sistemica equa.

Amirpasha Mozaffari, Amanda Duarte, Lina Teckentrup, Stefano Materia, Gina E. C. Charnley, Lluis Palma, Eulalia Baulenas Serra, Dragana Bojovic, Paula Checchia, Aude Carreric, Francisco Doblas-Reyes2026-03-09🤖 cs.AI

Cultural Perspectives and Expectations for Generative AI: A Global Survey Approach

Questo studio presenta i risultati di un'indagine globale su larga scala per analizzare le percezioni e le aspettative riguardo alla rappresentazione culturale nell'IA generativa, proponendo definizioni operative di cultura e raccomandazioni per lo sviluppo di sistemi più inclusivi e sensibili alle specificità culturali.

Erin van Liemt, Renee Shelby, Andrew Smart, Sinchana Kumbale, Richard Zhang, Neha Dixit, Qazi Mamunur Rashid, Jamila Smith-Loud2026-03-09🤖 cs.AI

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

Il paper presenta LTLGuard, un approccio modulare che combina la generazione di modelli linguistici compatti con la verifica simbolica formale per tradurre in modo efficiente e affidabile requisiti informali in specifiche corrette in logica temporale lineare (LTL).

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros Tripakis2026-03-09🤖 cs.AI

Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

Questo studio dimostra che il campionamento Best-of-N, quando opportunamente calibrato, è statisticamente e computazionalmente ottimale per massimizzare il tasso di vittoria (win-rate) nell'allineamento dei modelli linguistici, e propone una variante pratica che elimina il rischio di reward hacking mantenendo prestazioni ottimali.

Ved Sriraman, Adam Block2026-03-09🤖 cs.AI

← Precedente Successivo →