cs.AI articoli | Gist.Science

Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates

Questo lavoro propone il primo approccio completamente differenziabile per scoprire le "Strong Lottery Tickets" utilizzando porte di Bernoulli rilassate in modo continuo, permettendo di ottenere reti neurali sparse fino al 90% con perdita minima di accuratezza attraverso l'ottimizzazione end-to-end dei parametri di gating senza modificare i pesi inizializzati.

Itamar Tsayag, Ofir LindenbaumWed, 11 Ma🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Questo studio dimostra che le metriche di visibilità nei motori di ricerca generativi sono intrinsecamente variabili e non deterministiche, sostenendo la necessità di adottare un framework statistico che includa stime di incertezza e intervalli di confidenza invece di affidarsi a misurazioni puntuali singole.

Ronald SielinskiWed, 11 Ma🤖 cs.AI

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Questo studio introduce un benchmark sintetico e propone un approccio innovativo che utilizza modelli visione-linguaggio fondazionali (Gemma 3 e Qwen3-VL) per generare automaticamente configurazioni JSON per simulazioni di piante da immagini di droni, offrendo un framework scalabile per la creazione di gemelli digitali in agricoltura.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

Il paper presenta "Guardian", un sistema di supporto decisionale che combina catene di Markov interpretabili, apprendimento per rinforzo e modelli linguistici di grandi dimensioni per generare piani di ricerca ottimali e verificabili per la localizzazione di minori scomparsi entro le prime 72 ore.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Il paper presenta PathoScribe, un framework unificato basato su modelli linguistici di grandi dimensioni (LLM) che trasforma gli archivi di patologia statici in una "biblioteca vivente" interattiva, abilitando il recupero semantico, il ragionamento clinico e la costruzione automatizzata di coorti di ricerca con elevata precisione ed efficienza.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Il paper presenta VoxEmo, un benchmark completo per la valutazione dei modelli linguistici vocali nell'ambito del riconoscimento delle emozioni, che affronta le sfide della generazione testuale aperta e dell'ambiguità emotiva attraverso un kit di strumenti standardizzato e protocolli di valutazione adattati alla percezione umana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem

Il paper propone l'AgentOS, un nuovo paradigma di sistema operativo basato su un kernel di agenti e un'interfaccia naturale che trasforma le applicazioni tradizionali in moduli componibili, affrontando le sfide di frammentazione e gestione dei permessi come un problema di scoperta della conoscenza e data mining in tempo reale.

Rui Liu, Tao Zhe, Dongjie Wang, Zijun Yao, Kunpeng Liu, Yanjie Fu, Huan Liu, Jian PeiWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Il paper introduce BiCLIP, un framework semplice ed efficiente che migliora l'adattamento ai domini specifici per i modelli visione-linguaggio applicando una trasformazione geometrica strutturata ai feature multimodali, ottenendo risultati all'avanguardia su 11 benchmark.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Il documento presenta "Guardian", un sistema end-to-end basato su un pipeline multi-LLM che, attraverso l'uso di modelli specializzati, un motore di consenso e il fine-tuning QLoRA, supporta le indagini su persone scomparse e la pianificazione delle ricerche con un approccio conservativo e verificabile.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Tensor-Relational Decomposition for Large-Scale Sparse Tensor Computation

Il paper introduce \texttt{EinSum}, una notazione tensor-relazionale che automatizza la scomposizione dei calcoli in Einstein per eseguire le parti computazionalmente intensive tramite kernel numerici ottimizzati e gestire la sparsità dei dati all'interno di sistemi relazionali.

Yuxin Tang, Zhiyuan Xin, Zhimin Ding, Xinyu Yao, Daniel Bourgeois, Tirthak Patel, Chris JermaineWed, 11 Ma🤖 cs.AI

The FABRIC Strategy for Verifying Neural Feedback Systems

Questo lavoro introduce la strategia FaBRIC, un nuovo algoritmo che integra l'analisi di raggiungibilità in avanti e all'indietro per verificare sistemi di feedback neurale non lineari, superando significativamente lo stato dell'arte esistente.

I. Samuel Akinwande, Sydney M. Katz, Mykel J. Kochenderfer, Clark BarrettWed, 11 Ma🤖 cs.AI

Semantic Level of Detail: Multi-Scale Knowledge Representation via Heat Kernel Diffusion on Hyperbolic Manifolds

Il paper introduce SLoD, un framework che utilizza la diffusione del kernel di calore su varietà iperboliche per controllare in modo continuo il livello di dettaglio semantico nelle rappresentazioni della conoscenza, permettendo di rilevare automaticamente i confini gerarchici naturali nei grafi senza supervisione.

Edward IzgorodinWed, 11 Ma🤖 cs.AI

Arbiter: Detecting Interference in LLM Agent System Prompts

Il paper presenta Arbiter, un framework che combina regole di valutazione formale e analisi multi-modello per rilevare pattern di interferenza nei prompt di sistema degli agenti LLM per la codifica, identificando vulnerabilità critiche e dimostrando come l'architettura del prompt influenzi le classi di fallimento.

Tony MasonWed, 11 Ma🤖 cs.AI

Security Considerations for Multi-agent Systems

Questo studio caratterizza sistematicamente il panorama delle minacce dei sistemi multi-agente (MAS) e valuta quantitativamente 16 framework di sicurezza, rivelando che nessuno di essi copre la maggior parte delle categorie di rischio, in particolare la non deterministica e la perdita di dati, con l'iniziativa OWASP Agentic Security Initiative che ottiene la copertura complessiva più elevata.

Tam Nguyen, Moses Ndebugre, Dheeraj ArremsettyWed, 11 Ma🤖 cs.AI

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Questo studio analizza le disparità di genere nei modelli di rilevamento dei deepfake audio, dimostrando che l'uso esclusivo delle metriche tradizionali nasconde ingiustizie distributive che possono essere svelate solo attraverso una valutazione specifica dell'equità.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Improving through Interaction: Searching Behavioral Representation Spaces with CMA-ES-IG

Questo lavoro propone l'algoritmo CMA-ES-IG, che migliora l'apprendimento delle preferenze degli utenti non esperti per i robot incorporando considerazioni sull'esperienza utente nella generazione di query, ottenendo risultati superiori rispetto alle tecniche esistenti in termini di scalabilità, robustezza al rumore e gradimento degli utenti.

Nathaniel Dennler, Zhonghao Shi, Yiran Tao, Andreea Bobu, Stefanos Nikolaidis, Maja MataricWed, 11 Ma🤖 cs.AI

Meissa: Multi-modal Medical Agentic Intelligence

Il paper presenta Meissa, un modello linguistico multimodale medico leggero da 4 miliardi di parametri che, grazie a tecniche di distillazione avanzate, abilita capacità agentiche offline con prestazioni competitive rispetto ai modelli proprietari, riducendo drasticamente costi, latenza e rischi per la privacy.

Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan YuilleWed, 11 Ma🤖 cs.AI

AI Phenomenology for Understanding Human-AI Experiences Across Eras

Il paper propone l'"AI fenomenologia" come quadro di ricerca per comprendere l'esperienza vissuta e in evoluzione tra umani e intelligenza artificiale, offrendo strumenti metodologici e concetti di progettazione basati su studi longitudinali per superare le tradizionali metriche di performance e cogliere la complessità soggettiva di tale interazione.

Bhada Yun, Evgenia Taranova, Dana Feng, Renn Su, April Yi WangWed, 11 Ma🤖 cs.AI

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

Il paper introduce MEMO, un framework di auto-gioco che ottimizza il contesto di inferenza tramite un sistema di memoria persistente e un'esplorazione guidata da TrueSkill, riducendo significativamente la variabilità e migliorando le prestazioni nei giochi multi-agente LLM a più turni.

Yunfei Xie, Kevin Wang, Bobby Cheng, Jianzhu Yao, Zhizhou Sha, Alexander Duffy, Yihan Xi, Hongyuan Mei, Cheston Tan, Chen Wei, Pramod Viswanath, Zhangyang WangWed, 11 Ma🤖 cs.AI

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

Il paper introduce Pichay, un sistema di paging su richiesta che tratta la finestra di contesto degli LLM come una gerarchia di memoria virtuale, riducendo drasticamente il consumo di risorse attraverso l'evizione dinamica dei contenuti obsoleti e il ripristino selettivo solo quando necessario.

Tony MasonWed, 11 Ma🤖 cs.AI

← Precedente Successivo →