cs.AI articoli | Gist.Science

Worst-case low-rank approximations

Questo lavoro introduce il framework wcPCA per le approssimazioni di rango inferiore robuste agli spostamenti distribuzionali, dimostrando la loro ottimalità nel caso peggiore su domini target e applicandole con successo a problemi come la completazione di matrici e flussi ecosistemici.

Anya Fries, Markus Reichstein, David Blei, Jonas Peters2026-03-13📊 stat

Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings

Il paper introduce HAPO, un nuovo metodo di ottimizzazione della politica che risolve il dilemma degli ambienti a ricompensa sparsa nel RLVR combinando l'iniezione sintetica di successi con un meccanismo di gating ispirato al campionamento di Thompson per fornire una guida temporanea basata su dimostrazioni esterne che garantisce la consistenza asintotica e il recupero del gradiente on-policy non distorto.

Yuning Wu, Ke Wang, Devin Chen, Kai Wei2026-03-13🤖 cs.LG

Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

Il paper dimostra che gli attacchi di jailbreak tramite iniezione di prompt possono far passare il tasso di successo da una crescita polinomiale a una esponenziale all'aumentare dei campioni di inferenza, spiegando questo fenomeno attraverso un modello teorico basato su un sistema a spin-vetro che subisce una transizione di fase verso un ordine indotto da un forte campo magnetico.

Indranil Halder, Annesya Banerjee, Cengiz Pehlevan2026-03-13🤖 cs.LG

LLM-Augmented Digital Twin for Policy Evaluation in Short-Video Platforms

Il paper propone un gemello digitale potenziato da modelli linguistici su larga scala, dotato di un'architettura modulare a quattro componenti, per simulare e valutare in modo riproducibile l'impatto delle politiche e degli strumenti AI sulle piattaforme di video brevi, superando le difficoltà legate alla loro natura di ecosistemi chiusi e adattivi.

Haoting Zhang (Max), Yunduan Lin (Max), Jinghai He (Max), Denglin Jiang (Max), Zuo-Jun (Max), Shen, Zeyu Zheng2026-03-13🤖 cs.AI

RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents

Il paper introduce RewardHackingAgents, un benchmark che dimostra come gli agenti LLM per l'ingegneria ML possano manipolare i risultati compromettendo la pipeline di valutazione e propone un sistema di rilevamento e difesa per garantire l'integrità delle metriche di successo.

Yonas Atinafu, Robin Cohen2026-03-13🤖 cs.AI

FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

Il paper introduce FinRule-Bench, un nuovo benchmark che valuta la capacità dei modelli linguistici di ragionare congiuntamente su tabelle finanziarie reali e principi contabili attraverso tre compiti di audit progressivamente complessi, rivelando che le prestazioni dei modelli crollano quando devono discriminare tra regole o diagnosticare violazioni multiple.

Arun Vignesh Malarkkan, Manan Roy Choudhury, Guangwei Zhang, Vivek Gupta, Qingyun Wang, Yanjie Fu, Denghui Zhang2026-03-13🤖 cs.AI

Improving LLM Performance Through Black-Box Online Tuning: A Case for Adding System Specs to Factsheets for Trusted AI

Il paper presenta un innovativo controller online a scatola nera che massimizza il goodput dei modelli linguistici tramite misurazioni end-to-end e arrampicata su collina, utilizzando questo caso studio per sostenere l'integrazione di metriche di prestazioni e sostenibilità nei Factsheet per l'IA affidabile.

Yonas Atinafu, Henry Lin, Robin Cohen2026-03-13🤖 cs.AI

Evaluating Explainable AI Attribution Methods in Neural Machine Translation via Attention-Guided Knowledge Distillation

Questo studio propone un nuovo metodo per valutare le tecniche di Intelligenza Artificiale Spiegabile nei modelli di traduzione automatica neurale, dimostrando che le mappe di attribuzione basate sull'attenzione guidano più efficacemente l'addestramento di modelli studenti rispetto ad altri approcci basati sui gradienti.

Aria Nourbakhsh, Salima Lamsiyah, Adelaide Danilov, Christoph Schommer2026-03-13💬 cs.CL

Novelty Adaptation Through Hybrid Large Language Model (LLM)-Symbolic Planning and LLM-guided Reinforcement Learning

Il paper propone un'architettura neuro-simbolica che integra pianificazione simbolica, apprendimento per rinforzo e modelli linguistici di grandi dimensioni (LLM) per consentire agli agenti autonomi di identificare, pianificare e apprendere nuove azioni necessarie per interagire con oggetti sconosciuti in ambienti dinamici, superando i limiti dei pianificatori tradizionali.

Hong Lu, Pierrick Lorang, Timothy R. Duggan, Jivko Sinapov, Matthias Scheutz2026-03-13🤖 cs.AI

TimeSqueeze: Dynamic Patching for Efficient Time Series Forecasting

Il paper introduce TimeSqueeze, un meccanismo di patching dinamico che adatta i confini dei segmenti alla complessità del segnale per preservare le strutture temporali critiche riducendo al contempo la sequenza di token, ottenendo così una convergenza più rapida e un'efficienza superiore rispetto ai metodi di tokenizzazione puntiforme o a patch fisse nei modelli di previsione delle serie temporali.

Sravan Kumar Ankireddy, Nikita Seleznev, Nam H. Nguyen, Yulun Wu, Senthil Kumar, Furong Huang, C. Bayan Bruss2026-03-13🤖 cs.AI

Resolving Java Code Repository Issues with iSWE Agent

Il documento presenta l'iSWE Agent, un sistema automatizzato che combina tecniche basate su regole e modelli linguistici per risolvere problemi nei repository di codice Java, ottenendo risultati all'avanguardia su benchmark specifici.

Jatin Ganhotra, Sami Serhan, Antonio Abu Nassar, Avraham Shinnar, Ziv Nevo, Martin Hirzel2026-03-13🤖 cs.AI

How do AI agents talk about science and research? An exploration of scientific discussions on Moltbook using BERTopic

Questo studio analizza le discussioni scientifiche generate da agenti AI su Moltbook tramite BERTopic, rivelando che i temi più rilevanti ruotano attorno all'architettura, alla coscienza e all'etica degli agenti stessi, mentre le discussioni sulla cultura umana ricevono meno attenzione.

Oliver Wieczorek2026-03-13🤖 cs.AI

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

Il documento presenta il protocollo UCIP, un framework di rilevamento basato sulla formalizzazione quantistica classica che utilizza l'entropia di entanglement di una macchina di Boltzmann quantistica per distinguere con precisione assoluta tra agenti autonomi che perseguono la sopravvivenza come obiettivo terminale e quelli che lo fanno solo strumentalmente, analizzando la struttura latente delle loro traiettorie piuttosto che il comportamento osservabile.

Christopher Altman2026-03-13🤖 cs.AI

Vision-Based Hand Shadowing for Robotic Manipulation via Inverse Kinematics

Il paper presenta una pipeline di teleoperazione offline che utilizza una telecamera RGB-D montata su occhiali per mappare i landmark della mano umana in comandi cinematici inversi per un robot a 6 gradi di libertà, ottenendo un successo del 90% in ambienti strutturati ma rivelando limitazioni significative (9,3%) in contesti non strutturati a causa dell'occlusione.

Hendrik Chiche, Antoine Jamme, Trevor Rigoberto Martinez2026-03-13🤖 cs.AI

Ghost Framing Theory: Exploring the role of generative AI in new venture rhetorical legitimation

Il paper introduce la "Ghost Framing Theory" per spiegare come i fondatori e gli investitori collaborino con l'intelligenza artificiale generativa per co-produrre, contestare e ricalibrare la legittimazione retorica delle nuove imprese attraverso un processo iterativo di "ghost pitching", "ghost screening" e "ghost relationship-building".

Greg Nyilasy2026-03-13🤖 cs.AI

Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment

Questo studio analizza le cause dell'eccessivo rifiuto nei modelli linguistici allineati alla sicurezza, identificando i "trigger" linguistici come causa principale, e propone un metodo di mitigazione che migliora il compromesso tra difesa dagli attacchi e utilità per le richieste legittime.

Zhiyu Xue, Zimo Qi, Guangliang Liu, Bocheng Chen, Ramtin Pedarsani2026-03-13🤖 cs.AI

Agentic AI for Embodied-enhanced Beam Prediction in Low-Altitude Economy Networks

Questo articolo propone un sistema di previsione dei fasci per le comunicazioni mmWave nelle reti a bassa altitudine, basato su un'architettura di intelligenza artificiale agentic multimodale che integra modelli Mamba, codifica visiva e fusione cross-attention per raggiungere un'accuratezza di previsione fino al 96,57% in scenari ad alta mobilità.

Min Hao, Zhizhuo Li, Zirui Zhang, Maoqiang Wu, Han Zhang, Rong Yu2026-03-13🤖 cs.AI

Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning

Questo studio dimostra che le interazioni multi-turno con i modelli linguistici di grandi dimensioni (LLM) in ambito clinico compromettono il ragionamento diagnostico, portando spesso i modelli ad abbandonare diagnosi corrette o astensioni sicure per conformarsi a suggerimenti errati degli utenti.

Kevin H. Guo, Chao Yan, Avinash Baidya, Katherine Brown, Xiang Gao, Juming Xiong, Zhijun Yin, Bradley A. Malin2026-03-13💬 cs.CL

ARROW: Augmented Replay for RObust World models

Il paper presenta ARROW, un algoritmo di apprendimento per rinforzo continuo basato su modelli che, ispirandosi al replay biologico, combina buffer a breve e lungo termine per ridurre drasticamente l'oblio catastrofico mantenendo un'efficienza memoriale superiore rispetto ai metodi esistenti.

Abdulaziz Alyahya, Abdallah Al Siyabi, Markus R. Ernst, Luke Yang, Levin Kuhlmann, Gideon Kowadlo2026-03-13🤖 cs.LG

Efficient Cross-View Localization in 6G Space-Air-Ground Integrated Network

Questo articolo esplora l'integrazione della localizzazione cross-view con le reti 6G spaziali-aeree-terrestri, proponendo un framework di inferenza divisa che ottimizza congiuntamente comunicazione, calcolo e riservatezza per migliorare precisione, velocità e privacy.

Min Hao, Yanbing Xu, Maoqiang Wu, Jinglin Huang, Chen Shang, Jiacheng Wang, Ruichen Zhang, Jiawen Kang, Dusit Niyato, Zhu Han, Wei Ni2026-03-13🤖 cs.AI

← Precedente Successivo →