cs.AI articoli | Gist.Science

Demystifying KAN for Vision Tasks: The RepKAN Approach

Il paper presenta RepKAN, una nuova architettura per la classificazione di immagini di telerilevamento che combina l'efficienza delle CNN con la potenza rappresentativa dei KAN per ottenere modelli ad alte prestazioni e fisicamente interpretabili, superando lo stato dell'arte su dataset come EuroSAT e NWPU-RESISC45.

Minjong Cheon2026-03-09🤖 cs.AI

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

Il paper presenta MASFactory, un framework centrato sui grafi per orchestrare sistemi multi-agente basati su LLM che introduce il "Vibe Graphing", un approccio interattivo che traduce intenti in linguaggio naturale in flussi di lavoro eseguibili, facilitando la riutilizzabilità, l'integrazione di contesti eterogenei e la visualizzazione del processo.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

Sensitivity-Aware Retrieval-Augmented Intent Clarification

Questo articolo propone un approccio in tre fasi per sviluppare agenti conversazionali di chiarimento dell'intento potenziati dalla ricerca, che agiscano come mediatori sicuri per collezioni di dati sensibili (come in ambito sanitario o legale) definendo modelli di attacco, progettando difese specifiche e valutando il compromesso tra protezione e utilità del sistema.

Maik Larooij2026-03-09🤖 cs.AI

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Questo studio analizza le attivazioni intermedie dei modelli visione-linguaggio per l'automazione stradale, identificando che i fallimenti derivano sia da incapacità percettive (mancata codifica lineare di concetti visivi come l'orientamento) sia da errori cognitivi (mancato allineamento tra informazioni visive e semantica linguistica), con una ridotta separabilità dei concetti all'aumentare della distanza degli oggetti.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Il paper introduce TempoSyncDiff, un framework di diffusione latente basato su distillazione che genera volti parlanti guidati dall'audio con alta fedeltà temporale e bassa latenza, rendendo possibile il loro utilizzo su dispositivi edge.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

Lo studio presenta PyPDDLEngine, un motore di simulazione PDDL che permette agli LLM di pianificare in modo agentic attraverso feedback step-wise, dimostrando un miglioramento marginale rispetto alla pianificazione diretta ma inferiore rispetto ai metodi simbolici classici, suggerendo che i vantaggi degli agenti dipendono dalla natura del feedback ambientale.

Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Questo studio valuta l'efficacia di quattro modelli linguistici di grandi dimensioni open-weight nel correggere automaticamente saggi in tedesco di livello A austriaci basandosi su rubriche, rivelando che, sebbene i modelli siano in grado di applicare i criteri di valutazione, la loro bassa concordanza con i valutatori umani (massimo 40,6% per le dimensioni e 32,8% per i voti finali) li rende attualmente inadatti all'uso in contesti di valutazione reali.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Aggregative Semantics for Quantitative Bipolar Argumentation Frameworks

Questo articolo introduce una nuova famiglia di semantica aggregativa per i Framework di Argomentazione Bipolare Quantitativa (QBAF), che calcola il grado di accettabilità degli argomenti in tre fasi distinte aggregando separatamente attaccanti e sostenitori, garantendo così una maggiore interpretabilità e flessibilità parametrica rispetto alle semantica modulari esistenti.

Yann Munro, Isabelle Bloch, Marie-Jeanne Lesot2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

Il paper propone un nuovo compito di generazione di volti parlanti emotivamente continui (EC-TFG) e il modello TIE-TFG associato, capaci di sintetizzare video realistici in cui le espressioni facciali cambiano dinamicamente in risposta a variazioni emotive descritte nel testo di input.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lifelong Embodied Navigation Learning

Il paper propone Uni-Walker, un framework di apprendimento incarnato a vita che risolve il problema della rimozione catastrofica nei agenti di navigazione potenziati da LLM, decoulando le conoscenze in componenti condivise e specifiche tramite DE-LoRA e strategie di eredità e ortogonalità per adattarsi a compiti e stili di istruzioni diversi mantenendo le competenze apprese in precedenza.

Xudong Wang, Jiahua Dong, Baichen Liu, Qi Lyu, Lianqing Liu, Zhi Han2026-03-09🤖 cs.AI

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

Il paper propone StreamVoiceAnon+, un metodo di anonimizzazione speaker in streaming che preserva le emozioni attraverso un fine-tuning supervisionato e una distillazione emotiva a livello di frame, ottenendo un miglioramento significativo nella conservazione delle emozioni senza compromettere l'intelligibilità, la privacy o la latenza.

Nikita Kuzmin, Kong Aik Lee, Eng Siong Chng2026-03-09🤖 cs.AI

Offline Materials Optimization with CliqueFlowmer

Questo lavoro presenta CliqueFlowmer, un nuovo modello di ottimizzazione basato su dati offline che combina trasformatori e flussi generativi per scoprire materiali con proprietà superiori rispetto ai metodi generativi tradizionali.

Jakub Grudzien Kuba, Benjamin Kurt Miller, Sergey Levine, Pieter Abbeel2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Questo studio dimostra che l'esposizione a testi specifici tramite pre-addestramento continuo modella la personalità dei modelli linguistici, rivelando un vantaggio nella risoluzione di problemi complessi per i modelli con tratti sociali ridotti e fornendo una roadmap per l'ingegneria delle personalità.

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

Questo paper propone una pipeline che integra modelli linguistici di grandi dimensioni e un ragionatore neuro-simbolico per trasformare gli entimemi in argomenti logici espliciti, generando le premesse implicite necessarie per verificarne la validità tramite risoluzione SAT.

Xuyao Feng, Anthony Hunter2026-03-09🤖 cs.AI

A Hazard-Informed Data Pipeline for Robotics Physical Safety

Questo rapporto presenta un quadro strutturato per la sicurezza fisica dei robot che integra l'ingegneria della sicurezza classica con l'apprendimento automatico, allineando la dichiarazione degli asset, l'enumerazione delle vulnerabilità e la generazione di dati sintetici basati sui pericoli per l'addestramento di modelli di sicurezza.

Alexei Odinokov, Rostislav Yavorskiy2026-03-09🤖 cs.AI

A Causal Graph Approach to Oppositional Narrative Analysis

Questo lavoro propone un framework basato su grafi causali che rappresenta le narrazioni oppositive come interazioni tra entità, superando i limiti dei modelli a scatola nera tradizionali e ottenendo prestazioni superiori nella classificazione di tali narrazioni attraverso l'estrazione di sottografi causali minimi.

Diego Revilla, Martin Fernandez-de-Retana, Lingfeng Chen, Aritz Bilbao-Jayo, Miguel Fernandez-de-Retana2026-03-09🤖 cs.AI

Partial Policy Gradients for RL in LLMs

Il paper propone un approccio di gradiente parziale per l'apprendimento per rinforzo negli LLM che ottimizza sottoinsiemi di ricompense future per modellare diverse classi di policy, dimostrando empiricamente come politiche diverse (come quelle greedy o con lookahead) eccellano in specifici problemi di allineamento conversazionale.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Il paper presenta Place-it-R1, un framework end-to-end che sfrutta il ragionamento Chain-of-Thought dei Modelli Linguistici Multimodali per guidare l'inserimento di oggetti nei video, garantendo coerenza fisica e interazione con l'ambiente attraverso un ciclo di pensiero e generazione che supera i limiti delle tecniche attuali focalizzate solo sulla fedeltà visiva.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

Il documento dimostra che i grafi di codifica predittiva costituiscono un insieme matematico sovrastante delle reti neurali feedforward, rafforzando così il loro ruolo nel machine learning moderno e la rilevanza della topologia nelle reti neurali.

Björn van Zwol2026-03-09🤖 cs.AI

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Il paper presenta VLM-RobustBench, un benchmark completo che valuta la robustezza dei modelli visione-linguaggio contro 133 tipi di perturbazioni, rivelando che le distorsioni geometriche e di ricampionamento a bassa severità compromettono le prestazioni più delle corruzioni fotometriche visivamente gravi, evidenziando la fragilità spaziale di questi modelli.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

← Precedente Successivo →