cs.AI articoli | Gist.Science

Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search

Il paper introduce SCOUT, un metodo innovativo che utilizza grafi di scena 3D e una distillazione procedurale offline da grandi modelli linguistici per abilitare una ricerca interattiva di oggetti in ambienti aperti, superando i limiti di velocità e costo delle soluzioni precedenti mantenendo un'efficace generalizzazione semantica.

Imen Mahdi, Matteo Cassinelli, Fabien Despinoy, Tim Welschehold, Abhinav Valada2026-03-09🤖 cs.AI

The Fragility Of Moral Judgment In Large Language Models

Lo studio dimostra che i giudizi morali dei grandi modelli linguistici sono altamente fragili e manipolabili, poiché dipendono in modo critico da fattori superficiali come il punto di vista narrativo e il protocollo di valutazione piuttosto che dalla sostanza etica delle situazioni.

Tom van Nuenen, Pratik S. Sachdeva2026-03-09🤖 cs.AI

The DSA's Blind Spot: Algorithmic Audit of Advertising and Minor Profiling on TikTok

Questo studio dimostra che, sebbene TikTok rispetti formalmente il divieto di pubblicità profilata ai minori previsto dal DSA, aggira tale protezione sfruttando una definizione restrittiva di "pubblicità" che esclude i contenuti promozionali degli influencer, consentendo così una profilazione commerciale nascosta e altamente mirata verso gli adolescenti.

Sara Solarova, Matej Mosnar, Matus Tibensky, Jan Jakubcik, Adrian Bindas, Simon Liska, Filip Hossner, Matúš Mesarčík, Ivan Srba2026-03-09🤖 cs.AI

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Questo paper propone l'Implicit Error Counting (IEC), un metodo di apprendimento per rinforzo senza riferimenti che valuta le risposte enumerando gli errori invece di utilizzare rubriche basate su risposte ideali, dimostrando la sua superiorità nel post-training per il virtual try-on su benchmark specifici.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

SecureRAG-RTL: A Retrieval-Augmented, Multi-Agent, Zero-Shot LLM-Driven Framework for Hardware Vulnerability Detection

Il paper propone SecureRAG-RTL, un innovativo framework basato su Retrieval-Augmented Generation e agenti multipli che, integrando un nuovo dataset di benchmark di 14 progetti HDL vulnerabili, supera le limitazioni dei modelli linguistici nella rilevazione delle vulnerabilità hardware, aumentando l'accuratezza di rilevamento del 30% rispetto ai metodi tradizionali.

Touseef Hasan, Blessing Airehenbuwa, Nitin Pundir, Souvika Sarkar, Ujjwal Guin2026-03-09🤖 cs.AI

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Il paper presenta un nuovo framework longitudinale di inpainting per risonanze magnetiche cerebrali basato su modelli di diffusione 3D region-aware, che supera le tecniche esistenti garantendo maggiore fedeltà percettiva, stabilità temporale ed efficienza computazionale nell'analisi delle lesioni evolutive.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

Autonomous Algorithm Discovery for Ptychography via Evolutionary LLM Reasoning

Il paper presenta Ptychi-Evolve, un framework autonomo che utilizza modelli linguistici di grandi dimensioni e meccanismi evolutivi per scoprire e ottimizzare automaticamente nuove funzioni di regolarizzazione per la ptychografia, ottenendo ricostruzioni di immagini superiori rispetto ai metodi convenzionali.

Xiangyu Yin, Ming Du, Junjing Deng, Zhi Yang, Yimo Han, Yi Jiang2026-03-09🤖 cs.AI

Reasoning Models Struggle to Control their Chains of Thought

Lo studio introduce la suite di valutazione CoT-Control per dimostrare che i modelli di ragionamento attuali possiedono una capacità significativamente inferiore di controllare i propri processi di pensiero rispetto all'output finale, offrendo un motivo per l'ottimismo riguardo alla monitorabilità, sebbene il meccanismo sottostante rimanga poco compreso.

Chen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak2026-03-09🤖 cs.AI

The Rise of AI in Weather and Climate Information and its Impact on Global Inequality

Il paper sostiene che, sebbene l'IA prometta avanzamenti senza precedenti nelle scienze climatiche, il suo attuale sviluppo concentrato nel Nord globale rischia di esacerbare le disuguaglianze Nord-Sud, richiedendo un approccio centrato sui dati, infrastrutture digitali pubbliche e co-produzione della conoscenza per garantire una resilienza sistemica equa.

Amirpasha Mozaffari, Amanda Duarte, Lina Teckentrup, Stefano Materia, Gina E. C. Charnley, Lluis Palma, Eulalia Baulenas Serra, Dragana Bojovic, Paula Checchia, Aude Carreric, Francisco Doblas-Reyes2026-03-09🤖 cs.AI

Cultural Perspectives and Expectations for Generative AI: A Global Survey Approach

Questo studio presenta i risultati di un'indagine globale su larga scala per analizzare le percezioni e le aspettative riguardo alla rappresentazione culturale nell'IA generativa, proponendo definizioni operative di cultura e raccomandazioni per lo sviluppo di sistemi più inclusivi e sensibili alle specificità culturali.

Erin van Liemt, Renee Shelby, Andrew Smart, Sinchana Kumbale, Richard Zhang, Neha Dixit, Qazi Mamunur Rashid, Jamila Smith-Loud2026-03-09🤖 cs.AI

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

Il paper presenta LTLGuard, un approccio modulare che combina la generazione di modelli linguistici compatti con la verifica simbolica formale per tradurre in modo efficiente e affidabile requisiti informali in specifiche corrette in logica temporale lineare (LTL).

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros Tripakis2026-03-09🤖 cs.AI

Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

Questo studio dimostra che il campionamento Best-of-N, quando opportunamente calibrato, è statisticamente e computazionalmente ottimale per massimizzare il tasso di vittoria (win-rate) nell'allineamento dei modelli linguistici, e propone una variante pratica che elimina il rischio di reward hacking mantenendo prestazioni ottimali.

Ved Sriraman, Adam Block2026-03-09🤖 cs.AI

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Il documento presenta TML-Bench, un benchmark per agenti di data science su compiti di apprendimento automatico tabulare che valuta le prestazioni di dieci modelli LLM open source su competizioni Kaggle, rivelando che MiniMax-M2.1 ottiene i migliori risultati complessivi e che le prestazioni migliorano all'aumentare del tempo a disposizione.

Mykola Pinchuk2026-03-09🤖 cs.AI

Bridging Domains through Subspace-Aware Model Merging

Il paper propone SCORE, un metodo di fusione di modelli che risolve i conflitti tra sottospazi causati da distribuzioni diverse proiettando le matrici dei task su una base ortogonale condivisa, migliorando così la generalizzazione di dominio rispetto alle tecniche esistenti.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads

Il paper propone SAHA, un nuovo framework di jailbreak che sfrutta le vulnerabilità negli strati profondi delle Large Language Models intervenendo direttamente sulle attention heads attraverso una strategia di selezione basata sull'impatto dell'ablazione e una perturbazione consapevole dei confini, ottenendo un aumento significativo del tasso di successo rispetto agli stati dell'arte.

Jinman Wu, Yi Xie, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Il paper propone l'ipotesi di sicurezza disaccoppiata (DSH), dimostrando che i meccanismi di sicurezza nei grandi modelli linguistici operano su due assi geometrici distinti (riconoscimento ed esecuzione) e sfruttando questa separazione per sviluppare un attacco di rimozione del rifiuto che raggiunge prestazioni all'avanguardia.

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

PVminerLLM: Structured Extraction of Patient Voice from Patient-Generated Text using Large Language Models

Il paper introduce PVminer, un benchmark e un modello LLM supervisionato (PVminerLLM) che supera i metodi basati su prompt per estrarre in modo strutturato e scalabile le esperienze dei pazienti da testi generati dagli stessi, raggiungendo prestazioni elevate anche con modelli di dimensioni ridotte.

Samah Fodeh, Linhai Ma, Ganesh Puthiaraju, Srivani Talakokkul, Afshan Khan, Ashley Hagaman, Sarah Lowe, Aimee Roundtree2026-03-09🤖 cs.AI

Balancing Domestic and Global Perspectives: Evaluating Dual-Calibration and LLM-Generated Nudges for Diverse News Recommendation

Questo studio valuta l'efficacia di un framework di "nudge" personalizzato per la diversità, combinando un algoritmo di calibrazione duale e suggerimenti generati da LLM, dimostrando che tali interventi possono aumentare la diversità di consumo delle notizie e influenzare positivamente le abitudini di lettura degli utenti verso un equilibrio tra notizie nazionali e internazionali.

Ruixuan Sun, Matthew Zent, Minzhu Zhao, Thanmayee Boyapati, Xinyi Li, Joseph A. Konstan2026-03-09🤖 cs.AI

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

Il paper presenta BM25-V, un metodo di recupero immagini che applica il punteggio Okapi BM25 alle attivazioni sparse di parole visive derivate da un Auto-Encoder Sparse su feature di Vision Transformer, ottenendo un recupero ad alta precisione e interpretabilità che funge da efficiente primo stadio per il riordinamento denso senza necessità di addestramento aggiuntivo.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

Il paper propone "Proof-of-Guardrail", un sistema che utilizza ambienti di esecuzione attendibili (TEE) per fornire prove crittografiche verificabili che le risposte degli agenti AI sono state filtrate da specifici guardrail open-source, garantendo l'integrità del processo di sicurezza senza rivelare la logica proprietaria dell'agente, pur evidenziando i rischi residui di inganno da parte di sviluppatori malevoli.

Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren2026-03-09🤖 cs.AI

← Precedente Successivo →