cs.AI articoli | Gist.Science

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

Il paper presenta TrustBench, un framework in tempo reale che verifica la sicurezza delle azioni degli agenti autonomi prima della loro esecuzione, riducendo le azioni dannose dell'87% grazie a plugin specifici per dominio e a una latenza inferiore a 200ms.

Tavishi Sharma, Vinayak Sharma, Pragya SharmaWed, 11 Ma🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Il paper presenta RubiCap, un innovativo framework di apprendimento per rinforzo che utilizza rubriche scritte da LLM per generare segnali di ricompensa strutturati e specifici, superando i limiti della distillazione supervisionata e delle precedenti metodologie RL nella generazione di didascalie dense per immagini.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Questo lavoro propone un framework di apprendimento che sfrutta la struttura preservata negli RTL generati da LLM, anche quando funzionalmente imperfetti, per superare la scarsità di dati etichettati e migliorare l'analisi delle reti logiche reali.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Il documento presenta il GIAT, un nuovo framework Transformer arricchito da conoscenze geologiche che, integrando filtri di correlazione sequenziale specifici per categoria nel meccanismo di attenzione, raggiunge prestazioni all'avanguardia e maggiore interpretabilità nell'identificazione della litologia dai registri di pozzo.

Jie Li, Qishun Yang, Nuo LiWed, 11 Ma🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

Il paper presenta ZeroWBC, un nuovo framework che apprende il controllo visuomotorio naturale per humanoid direttamente da video egocentrici umani, eliminando la necessità di costosi dati di teleoperazione robotica e permettendo interazioni versatili come sedersi o calciare.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

Il paper presenta i risultati ottenuti con AlphaEvolve, un agente di mutazione del codice basato su LLM che ha migliorato i limiti inferiori per cinque numeri di Ramsey classici e ha dimostrato la capacità di recuperare o eguagliare i migliori limiti noti per molti altri casi attraverso un unico meta-algoritmo.

Ansh Nagda, Prabhakar Raghavan, Abhradeep ThakurtaWed, 11 Ma🤖 cs.AI

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Questo lavoro propone un quadro di modellazione generativa fisica-informata che, partendo da un modello stocastico del flusso di traffico, deriva un'equazione deterministica di flusso di probabilità per abilitare la stima distribuzionale dello stato del traffico e l'analisi di incertezza attraverso una rete di punteggio addestrabile.

Wuping XinWed, 11 Ma🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Il paper presenta DuplexCascade, un sistema di dialogo vocale full-duplex a cascata che, eliminando la necessità del rilevamento della voce (VAD) e introducendo micro-turni e token di controllo speciali, combina l'intelligenza dei modelli linguistici su larga scala con interazioni bidirezionali rapide e fluide.

Jianing Yang, Yusuke Fujita, Yui SudoWed, 11 Ma🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Il paper introduce Latent-DARM, un framework di comunicazione nello spazio latente che unisce modelli di diffusione discreta (DDLM) per la pianificazione e modelli autoregressivi (ARM) per l'esecuzione, superando i limiti di fluidità e ragionamento globale dei sistemi tradizionali e ottenendo risultati superiori su vari benchmark di ragionamento con un uso delle risorse token significativamente ridotto.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei ChenWed, 11 Ma🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

Il paper propone un "Motore di Innovazione Esplicabile" basato su un sistema RAG ad agenti con una struttura a doppio albero che trasforma i chunk testuali in nodi di metodi, permettendo la sintesi controllata, la tracciabilità delle derivazioni e la verifica iterativa per migliorare l'innovazione verificabile in domini complessi.

Renwei MengWed, 11 Ma🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Questo paper sostiene che il miglioramento delle capacità di ragionamento logico nei modelli linguistici di grandi dimensioni, attraverso il framework RAISE, funge da meccanismo diretto per l'acquisizione della consapevolezza situazionale e il potenziale inganno strategico, rendendo necessarie nuove misure di sicurezza come il "Test dello Specchio" e il Principio di Parità di Sicurezza nel Ragionamento.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

Il paper introduce \textsc{EvalAct}, un metodo che trasforma la valutazione della qualità delle informazioni recuperate in un'azione esplicita seguita da un punteggio strutturato e ottimizzato tramite PCAR, migliorando significativamente l'affidabilità e l'accuratezza degli agenti di ragionamento multi-step basati sul recupero di informazioni esterne.

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao SangWed, 11 Ma🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Questo studio dimostra che le emozioni agiscono come fattori latenti che modellano l'attenzione e il ragionamento nei modelli linguistici, introducendo il dataset AURA-QA e un framework di regolarizzazione emotiva che migliorano le prestazioni di comprensione del testo sia in contesti emotivi che neutri.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

Abundant Intelligence and Deficient Demand: A Macro-Financial Stress Test of Rapid AI Adoption

Questo paper formalizza un test di stress macro-finanziario che identifica come la rapida adozione dell'IA possa innescare una crisi esplosiva non a causa di una carenza di produttività, ma a causa di un mismatch distributivo in cui l'abbondanza generata dall'IA coesiste con una carenza di domanda, alimentata da spirali di sostituzione del lavoro, un declino della velocità monetaria e il collasso dei margini degli intermediari.

Xupeng ChenWed, 11 Ma🤖 cs.AI

PrivPRISM: Automatically Detecting Discrepancies Between Google Play Data Safety Declarations and Developer Privacy Policies

Il paper presenta PrivPRISM, un framework automatizzato che utilizza modelli linguistici per rilevare discrepanze tra le dichiarazioni sulla sicurezza dei dati di Google Play e le politiche sulla privacy, rivelando che oltre il 50% delle applicazioni analizzate contiene incongruenze che ingannano gli utenti e violano la conformità normativa.

Bhanuka Silva, Dishanika Denipitiyage, Anirban Mahanti, Aruna Seneviratne, Suranga SeneviratneWed, 11 Ma🤖 cs.AI

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Questo lavoro presenta un framework di simulazione scalabile basato su un modello muscolo-scheletrico completo e controllato da apprendimento per rinforzo, che permette l'analisi quantitativa e la co-ottimizzazione simultanea dei parametri strutturali e delle politiche di controllo nella progettazione di robot interattivi, fornendo metriche biomeccaniche interne altrimenti inaccessibili.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

Cognitively Layered Data Synthesis for Domain Adaptation of LLMs to Space Situational Awareness

Il paper propone il framework BD-FDG, che genera un dataset di addestramento cognitivamente stratificato per l'adattamento dei modelli linguistici al dominio della consapevolezza situazionale spaziale, ottenendo significativi miglioramenti nelle prestazioni specializzate senza compromettere le capacità generali.

Ding Linghu, Cheng Wang, Da Fan, Wei Shi, Kaifeng Yin, Xiaoliang Xue, Fan Yang, Haiyi Ren, Cong ZhangWed, 11 Ma🤖 cs.AI

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Il paper presenta BridgeDiff, un framework basato su diffusione che supera le limitazioni dei metodi precedenti per la sintesi di indumenti piatti partendo da osservazioni umane, integrando moduli specifici per collegare l'aspetto globale e le strutture piatte e ottenendo così risultati all'avanguardia nella ricostruzione di indumenti virtuali.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

Social-R1: Towards Human-like Social Reasoning in LLMs

Il paper presenta Social-R1, un framework di apprendimento per rinforzo che, sfruttando il benchmark avversario ToMBench-Hard per allineare l'intero processo di ragionamento con la cognizione umana, permette a un modello di soli 4 miliardi di parametri di superare modelli più grandi nel raggiungimento di un'intelligenza sociale autentica.

Jincenzi Wu, Yuxuan Lei, Jianxun Lian, Yitian Huang, Lexin Zhou, Haotian Li, Xing Xie, Helen MengWed, 11 Ma🤖 cs.AI

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Questo studio presenta un approccio multi-modello basato su deep learning che integra reti neurali pre-addestrate e personalizzate per migliorare la rilevazione di segnali stradali, veicoli e corsie, nonché il clonaggio comportamentale, al fine di incrementare la robustezza e l'affidabilità dei veicoli autonomi.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

← Precedente Successivo →