cs.AI articoli | Gist.Science

An Interactive Multi-Agent System for Evaluation of New Product Concepts

Questo studio propone un sistema multi-agente basato su modelli linguistici di grandi dimensioni, composto da otto agenti virtuali specializzati che utilizzano RAG e strumenti di ricerca per valutare oggettivamente la fattibilità tecnica e commerciale di nuovi concetti di prodotto, dimostrando attraverso un caso studio che i risultati sono allineati con il giudizio di esperti del settore.

Bin Xuan, Ruo Ai, Hakyeon Lee2026-03-09🤖 cs.AI

Technical Report: Automated Optical Inspection of Surgical Instruments

Questo rapporto presenta un sistema di ispezione ottica automatizzata basato su architetture di deep learning (YOLOv8, ResNet-152 ed EfficientNet-b4) e un nuovo dataset di 4.414 immagini, sviluppato in collaborazione con leader dell'industria di Sialkot per rilevare difetti critici negli strumenti chirurgici pakistani e garantire la sicurezza dei pazienti.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

TADPO: Reinforcement Learning Goes Off-road

Il paper introduce TADPO, un nuovo sistema di apprendimento per rinforzo basato su visione che combina traiettorie on-policy e off-policy per la guida off-road ad alta velocità, dimostrando per la prima volta il trasferimento zero-shot da simulazione a un veicolo reale a pieno scala.

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

Il paper presenta MM-ISTS, un framework multimodale che sfrutta modelli linguistici visione-testo per migliorare le previsioni delle serie temporali a campionamento irregolare integrando dati temporali, visivi e testuali attraverso un meccanismo di codifica innovativo e un modulo di allineamento adattivo.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Questo paper introduce ICBench per diagnosticare la "cecità linguistica" nei modelli VLA, che ignorano le istruzioni contraddittorie favorendo le priorità visive, e propone IGAR, un metodo senza riaddestramento che ripristina l'attenzione alle istruzioni durante l'inferenza per prevenire azioni errate.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

Il paper presenta RepKAN, una nuova architettura per la classificazione di immagini di telerilevamento che combina l'efficienza delle CNN con la potenza rappresentativa dei KAN per ottenere modelli ad alte prestazioni e fisicamente interpretabili, superando lo stato dell'arte su dataset come EuroSAT e NWPU-RESISC45.

Minjong Cheon2026-03-09🤖 cs.AI

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

Il paper presenta MASFactory, un framework centrato sui grafi per orchestrare sistemi multi-agente basati su LLM che introduce il "Vibe Graphing", un approccio interattivo che traduce intenti in linguaggio naturale in flussi di lavoro eseguibili, facilitando la riutilizzabilità, l'integrazione di contesti eterogenei e la visualizzazione del processo.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

Sensitivity-Aware Retrieval-Augmented Intent Clarification

Questo articolo propone un approccio in tre fasi per sviluppare agenti conversazionali di chiarimento dell'intento potenziati dalla ricerca, che agiscano come mediatori sicuri per collezioni di dati sensibili (come in ambito sanitario o legale) definendo modelli di attacco, progettando difese specifiche e valutando il compromesso tra protezione e utilità del sistema.

Maik Larooij2026-03-09🤖 cs.AI

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Questo studio analizza le attivazioni intermedie dei modelli visione-linguaggio per l'automazione stradale, identificando che i fallimenti derivano sia da incapacità percettive (mancata codifica lineare di concetti visivi come l'orientamento) sia da errori cognitivi (mancato allineamento tra informazioni visive e semantica linguistica), con una ridotta separabilità dei concetti all'aumentare della distanza degli oggetti.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Il paper introduce TempoSyncDiff, un framework di diffusione latente basato su distillazione che genera volti parlanti guidati dall'audio con alta fedeltà temporale e bassa latenza, rendendo possibile il loro utilizzo su dispositivi edge.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

Lo studio presenta PyPDDLEngine, un motore di simulazione PDDL che permette agli LLM di pianificare in modo agentic attraverso feedback step-wise, dimostrando un miglioramento marginale rispetto alla pianificazione diretta ma inferiore rispetto ai metodi simbolici classici, suggerendo che i vantaggi degli agenti dipendono dalla natura del feedback ambientale.

Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Questo studio valuta l'efficacia di quattro modelli linguistici di grandi dimensioni open-weight nel correggere automaticamente saggi in tedesco di livello A austriaci basandosi su rubriche, rivelando che, sebbene i modelli siano in grado di applicare i criteri di valutazione, la loro bassa concordanza con i valutatori umani (massimo 40,6% per le dimensioni e 32,8% per i voti finali) li rende attualmente inadatti all'uso in contesti di valutazione reali.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Aggregative Semantics for Quantitative Bipolar Argumentation Frameworks

Questo articolo introduce una nuova famiglia di semantica aggregativa per i Framework di Argomentazione Bipolare Quantitativa (QBAF), che calcola il grado di accettabilità degli argomenti in tre fasi distinte aggregando separatamente attaccanti e sostenitori, garantendo così una maggiore interpretabilità e flessibilità parametrica rispetto alle semantica modulari esistenti.

Yann Munro, Isabelle Bloch, Marie-Jeanne Lesot2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

Il paper propone un nuovo compito di generazione di volti parlanti emotivamente continui (EC-TFG) e il modello TIE-TFG associato, capaci di sintetizzare video realistici in cui le espressioni facciali cambiano dinamicamente in risposta a variazioni emotive descritte nel testo di input.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lifelong Embodied Navigation Learning

Il paper propone Uni-Walker, un framework di apprendimento incarnato a vita che risolve il problema della rimozione catastrofica nei agenti di navigazione potenziati da LLM, decoulando le conoscenze in componenti condivise e specifiche tramite DE-LoRA e strategie di eredità e ortogonalità per adattarsi a compiti e stili di istruzioni diversi mantenendo le competenze apprese in precedenza.

Xudong Wang, Jiahua Dong, Baichen Liu, Qi Lyu, Lianqing Liu, Zhi Han2026-03-09🤖 cs.AI

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

Il paper propone StreamVoiceAnon+, un metodo di anonimizzazione speaker in streaming che preserva le emozioni attraverso un fine-tuning supervisionato e una distillazione emotiva a livello di frame, ottenendo un miglioramento significativo nella conservazione delle emozioni senza compromettere l'intelligibilità, la privacy o la latenza.

Nikita Kuzmin, Kong Aik Lee, Eng Siong Chng2026-03-09🤖 cs.AI

Offline Materials Optimization with CliqueFlowmer

Questo lavoro presenta CliqueFlowmer, un nuovo modello di ottimizzazione basato su dati offline che combina trasformatori e flussi generativi per scoprire materiali con proprietà superiori rispetto ai metodi generativi tradizionali.

Jakub Grudzien Kuba, Benjamin Kurt Miller, Sergey Levine, Pieter Abbeel2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Questo studio dimostra che l'esposizione a testi specifici tramite pre-addestramento continuo modella la personalità dei modelli linguistici, rivelando un vantaggio nella risoluzione di problemi complessi per i modelli con tratti sociali ridotti e fornendo una roadmap per l'ingegneria delle personalità.

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

Questo paper propone una pipeline che integra modelli linguistici di grandi dimensioni e un ragionatore neuro-simbolico per trasformare gli entimemi in argomenti logici espliciti, generando le premesse implicite necessarie per verificarne la validità tramite risoluzione SAT.

Xuyao Feng, Anthony Hunter2026-03-09🤖 cs.AI

A Hazard-Informed Data Pipeline for Robotics Physical Safety

Questo rapporto presenta un quadro strutturato per la sicurezza fisica dei robot che integra l'ingegneria della sicurezza classica con l'apprendimento automatico, allineando la dichiarazione degli asset, l'enumerazione delle vulnerabilità e la generazione di dati sintetici basati sui pericoli per l'addestramento di modelli di sicurezza.

Alexei Odinokov, Rostislav Yavorskiy2026-03-09🤖 cs.AI

← Precedente Successivo →