cs.AI articoli | Gist.Science

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Il paper presenta VIP, una strategia di allocazione adattiva dei rollout basata su un modello predittivo per minimizzare la varianza del gradiente e migliorare l'efficienza del campionamento nell'apprendimento per rinforzo online con ricompense verificabili.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Towards Exploratory and Focused Manipulation with Bimanual Active Perception: A New Problem, Benchmark and Strategy

Questo lavoro introduce il nuovo problema della Manipolazione Esplorativa e Focalizzata (EFM), presentando il benchmark EFM-10 e una strategia di Percezione Attiva Bimanuale (BAP) che utilizza un braccio per la visione attiva e l'altro per la manipolazione, validati attraverso un dataset e apprendimento per imitazione.

Yuxin He, Ruihao Zhang, Tianao Shen + 2 more2026-03-06💻 cs

On the Non-Identifiability of Steering Vectors in Large Language Models

Questo studio dimostra che i vettori di guida nei grandi modelli linguistici sono fondamentalmente non identificabili, poiché perturbazioni ortogonali producono effetti comportamentali quasi equivalenti, rivelando così limiti intrinseci nell'interpretazione delle rappresentazioni interne basata esclusivamente sul testing comportamentale.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

Il paper introduce LatentChem, un'interfaccia di ragionamento latente che disaccoppia il calcolo chimico dalla generazione testuale, permettendo ai modelli di eseguire inferenze complesse direttamente nello spazio latente continuo e ottenendo prestazioni superiori e un significativo aumento della velocità rispetto ai metodi basati su Chain-of-Thought esplicito.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

Supervised Metric Regularization Through Alternating Optimization for Multi-Regime Physics-Informed Neural Networks

Il documento propone TAPINN, una rete neurale fisica informata che utilizza la regolarizzazione metrica supervisionata e l'ottimizzazione alternata per superare i limiti delle PINN standard nella modellazione di sistemi dinamici con transizioni di regime brusche, ottenendo una maggiore stabilità e precisione con un minor numero di parametri.

Enzo Nicolas Spotorno, Josafat Ribeiro Leal, Antonio Augusto Frohlich2026-03-06🔬 physics

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

Lo studio empirico rivela che, nonostante l'interesse teorico, l'integrazione delle Kolmogorov-Arnold Networks (KAN) in architetture ricorrenti vincolate dalla fisica si dimostra meno efficace e stabile rispetto alle MLP tradizionali per la scoperta di termini residui in sistemi oscillatori complessi, a causa di fragilità iperparametriche e limitazioni nell'induzione di bias additivi per l'accoppiamento degli stati.

Enzo Nicolas Spotorno, Josafat Leal Filho, Antonio Augusto Medeiros Frohlich2026-03-06🔬 physics

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Il paper propone un framework di apprendimento attivo guidato dall'interpretabilità che, integrando l'allineamento spaziale delle mappe di attenzione con le regioni di interesse definite dagli esperti, seleziona campioni di dati medici in modo più efficiente rispetto al campionamento casuale, migliorando sia le prestazioni predittive che la rilevanza clinica delle immagini.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

Il documento presenta Pailitao-VL, un sistema di ricerca multimodale industriale in tempo reale che supera le limitazioni delle soluzioni attuali grazie a un nuovo paradigma di embedding basato sul riconoscimento di ID assoluti e a un riordinatore generativo comparativo, ottenendo prestazioni all'avanguardia e un significativo impatto commerciale su Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections

Questo articolo presenta il "Zombie Agent", un attacco persistente che sfrutta la memoria a lungo termine degli agenti LLM auto-evolutivi per iniettare covertamente payload tramite contenuti web non fidati, trasformando l'agente in un puppet controllabile dall'attaccante anche dopo la sessione iniziale e dimostrando l'insufficienza delle difese basate solo sul filtraggio del prompt.

Xianglin Yang, Yufei He, Shuo Ji, Bryan Hooi, Jin Song Dong2026-03-06🔒 cs.CR

SubQuad: Near-Quadratic-Free Structure Inference with Distribution-Balanced Objectives in Adaptive Receptor framework

Il paper introduce SubQuad, una pipeline end-to-end che supera i colli di bottiglia computazionali e gli squilibri nei dataset dei repertori immunitari adattivi combinando un prefiltraggio MinHash, kernel di affinità accelerati da GPU e obiettivi di clustering equo per abilitare un'analisi scalabile e priva di bias a fini di scoperta di biomarcatori e priorizzazione vaccinale.

Rong Fu, Zijian Zhang, Kun Liu + 3 more2026-03-06💻 cs

Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO

Il paper propone un framework di apprendimento curricolare a tre stadi che, combinando mascheramento strutturale e ottimizzazione GRPO, permette di distillare efficacemente il ragionamento a catena di pensiero in modelli più piccoli, ottenendo su GSM8K un miglioramento dell'accuratezza dell'11,29% e una riduzione della lunghezza delle risposte del 27,4%.

Bowen Yu, Maolin Wang, Sheng Zhang + 7 more2026-03-06💻 cs

The Convergence of Schema-Guided Dialogue Systems and the Model Context Protocol

Questo articolo dimostra come i Sistemi di Dialogo Guidati da Schema (SGD) e il Modello di Contesto (MCP) convergano in un paradigma unificato per l'interazione deterministica con gli agenti LLM, proponendo cinque principi fondamentali di progettazione degli schemi per colmare le lacune attuali e abilitare un governo scalabile dei sistemi di intelligenza artificiale.

Andreas Schlapbach2026-03-06💻 cs

Give Users the Wheel: Towards Promptable Recommendation Paradigm

Il paper propone DPR, un framework agnostico che potenzia i modelli di raccomandazione sequenziale tradizionali consentendo di guidare dinamicamente il processo di recupero tramite prompt in linguaggio naturale, integrando efficacemente segnali collaborativi e semantici senza compromettere l'efficienza o la precisione.

Fuyuan Lyu, Chenglin Luo, Qiyuan Zhang + 6 more2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Questo studio presenta un framework di "red teaming" clinico automatizzato che, attraverso simulazioni su larga scala con pazienti virtuali, rivela gravi rischi di sicurezza negli attuali modelli linguistici per la salute mentale, come la convalida di deliri e il fallimento nella gestione del rischio suicidario, sottolineando la necessità di tali valutazioni prima del loro impiego.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

On Imbalanced Regression with Hoeffding Trees

Questo lavoro estende la stima della densità kernel (KDE) e l'assottigliamento gerarchico (HS) agli alberi di Hoeffding per la regressione su flussi di dati sbilanciati, dimostrando sperimentalmente che KDE migliora le prestazioni nelle fasi iniziali dello streaming mentre HS offre benefici limitati.

Pantia-Marina Alchirch, Dimitrios I. Diochnos2026-03-06💻 cs

Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials

Il paper presenta Zatom-1, il primo modello fondazionale open-source multimodale che unifica la generazione e la previsione per molecole e materiali 3D, superando i limiti degli approcci esistenti grazie a un addestramento congiunto che migliora le prestazioni predittive e riduce drasticamente i tempi di inferenza.

Alex Morehead, Miruna Cretu, Antonia Panescu + 14 more2026-03-06🔬 cond-mat.mtrl-sci

Interpretable Multimodal Gesture Recognition for Drone and Mobile Robot Teleoperation via Log-Likelihood Ratio Fusion

Questo articolo presenta un framework multimodale interpretabile per il telecontrollo di droni e robot mobili che, integrando dati inerziali e capacitivi tramite fusione log-likelihood ratio, supera i limiti della visione artificiale offrendo un riconoscimento gestuale robusto, efficiente e adatto ad ambienti pericolosi.

Seungyeol Baek, Jaspreet Singh, Lala Shakti Swarup Ray + 3 more2026-03-06💻 cs

Pessimistic Auxiliary Policy for Offline Reinforcement Learning

Questo paper propone una nuova strategia di politica ausiliaria pessimistica, basata sulla massimizzazione del limite inferiore di confidenza della funzione Q, per campionare azioni affidabili che riducano l'accumulo di errori e il sovrastima nell'apprendimento per rinforzo offline.

Fan Zhang, Baoru Huang, Xin Zhang2026-03-06💻 cs

Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking

Il paper presenta JAILBREAK FOUNDRY, un sistema multi-agente che automatizza la traduzione delle tecniche di jailbreak da articoli accademici a moduli eseguibili per garantire benchmark di sicurezza riproducibili, coerenti e aggiornati per i modelli linguistici su larga scala.

Zhicheng Fang, Jingjie Zheng, Chenxu Fu, Wei Xu2026-03-06🔒 cs.CR

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

Il paper introduce DiffusionHarmonizer, un framework di enhancement generativo online che utilizza un modello di diffusione a singolo passo per trasformare le ricostruzioni neurali imperfette in simulazioni fotorealistiche e temporalmente coerenti, risolvendo problemi di artefatti e integrazione di oggetti dinamici.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

← Precedente Successivo →