cs.AI articoli | Gist.Science

Autonomous Algorithm Discovery for Ptychography via Evolutionary LLM Reasoning

Il paper presenta Ptychi-Evolve, un framework autonomo che utilizza modelli linguistici di grandi dimensioni e meccanismi evolutivi per scoprire e ottimizzare automaticamente nuove funzioni di regolarizzazione per la ptychografia, ottenendo ricostruzioni di immagini superiori rispetto ai metodi convenzionali.

Xiangyu Yin, Ming Du, Junjing Deng, Zhi Yang, Yimo Han, Yi Jiang2026-03-09🤖 cs.AI

Reasoning Models Struggle to Control their Chains of Thought

Lo studio introduce la suite di valutazione CoT-Control per dimostrare che i modelli di ragionamento attuali possiedono una capacità significativamente inferiore di controllare i propri processi di pensiero rispetto all'output finale, offrendo un motivo per l'ottimismo riguardo alla monitorabilità, sebbene il meccanismo sottostante rimanga poco compreso.

Chen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak2026-03-09🤖 cs.AI

The Rise of AI in Weather and Climate Information and its Impact on Global Inequality

Il paper sostiene che, sebbene l'IA prometta avanzamenti senza precedenti nelle scienze climatiche, il suo attuale sviluppo concentrato nel Nord globale rischia di esacerbare le disuguaglianze Nord-Sud, richiedendo un approccio centrato sui dati, infrastrutture digitali pubbliche e co-produzione della conoscenza per garantire una resilienza sistemica equa.

Amirpasha Mozaffari, Amanda Duarte, Lina Teckentrup, Stefano Materia, Gina E. C. Charnley, Lluis Palma, Eulalia Baulenas Serra, Dragana Bojovic, Paula Checchia, Aude Carreric, Francisco Doblas-Reyes2026-03-09🤖 cs.AI

Cultural Perspectives and Expectations for Generative AI: A Global Survey Approach

Questo studio presenta i risultati di un'indagine globale su larga scala per analizzare le percezioni e le aspettative riguardo alla rappresentazione culturale nell'IA generativa, proponendo definizioni operative di cultura e raccomandazioni per lo sviluppo di sistemi più inclusivi e sensibili alle specificità culturali.

Erin van Liemt, Renee Shelby, Andrew Smart, Sinchana Kumbale, Richard Zhang, Neha Dixit, Qazi Mamunur Rashid, Jamila Smith-Loud2026-03-09🤖 cs.AI

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

Il paper presenta LTLGuard, un approccio modulare che combina la generazione di modelli linguistici compatti con la verifica simbolica formale per tradurre in modo efficiente e affidabile requisiti informali in specifiche corrette in logica temporale lineare (LTL).

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros Tripakis2026-03-09🤖 cs.AI

Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

Questo studio dimostra che il campionamento Best-of-N, quando opportunamente calibrato, è statisticamente e computazionalmente ottimale per massimizzare il tasso di vittoria (win-rate) nell'allineamento dei modelli linguistici, e propone una variante pratica che elimina il rischio di reward hacking mantenendo prestazioni ottimali.

Ved Sriraman, Adam Block2026-03-09🤖 cs.AI

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Il documento presenta TML-Bench, un benchmark per agenti di data science su compiti di apprendimento automatico tabulare che valuta le prestazioni di dieci modelli LLM open source su competizioni Kaggle, rivelando che MiniMax-M2.1 ottiene i migliori risultati complessivi e che le prestazioni migliorano all'aumentare del tempo a disposizione.

Mykola Pinchuk2026-03-09🤖 cs.AI

Bridging Domains through Subspace-Aware Model Merging

Il paper propone SCORE, un metodo di fusione di modelli che risolve i conflitti tra sottospazi causati da distribuzioni diverse proiettando le matrici dei task su una base ortogonale condivisa, migliorando così la generalizzazione di dominio rispetto alle tecniche esistenti.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads

Il paper propone SAHA, un nuovo framework di jailbreak che sfrutta le vulnerabilità negli strati profondi delle Large Language Models intervenendo direttamente sulle attention heads attraverso una strategia di selezione basata sull'impatto dell'ablazione e una perturbazione consapevole dei confini, ottenendo un aumento significativo del tasso di successo rispetto agli stati dell'arte.

Jinman Wu, Yi Xie, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Il paper propone l'ipotesi di sicurezza disaccoppiata (DSH), dimostrando che i meccanismi di sicurezza nei grandi modelli linguistici operano su due assi geometrici distinti (riconoscimento ed esecuzione) e sfruttando questa separazione per sviluppare un attacco di rimozione del rifiuto che raggiunge prestazioni all'avanguardia.

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

PVminerLLM: Structured Extraction of Patient Voice from Patient-Generated Text using Large Language Models

Il paper introduce PVminer, un benchmark e un modello LLM supervisionato (PVminerLLM) che supera i metodi basati su prompt per estrarre in modo strutturato e scalabile le esperienze dei pazienti da testi generati dagli stessi, raggiungendo prestazioni elevate anche con modelli di dimensioni ridotte.

Samah Fodeh, Linhai Ma, Ganesh Puthiaraju, Srivani Talakokkul, Afshan Khan, Ashley Hagaman, Sarah Lowe, Aimee Roundtree2026-03-09🤖 cs.AI

Balancing Domestic and Global Perspectives: Evaluating Dual-Calibration and LLM-Generated Nudges for Diverse News Recommendation

Questo studio valuta l'efficacia di un framework di "nudge" personalizzato per la diversità, combinando un algoritmo di calibrazione duale e suggerimenti generati da LLM, dimostrando che tali interventi possono aumentare la diversità di consumo delle notizie e influenzare positivamente le abitudini di lettura degli utenti verso un equilibrio tra notizie nazionali e internazionali.

Ruixuan Sun, Matthew Zent, Minzhu Zhao, Thanmayee Boyapati, Xinyi Li, Joseph A. Konstan2026-03-09🤖 cs.AI

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

Il paper presenta BM25-V, un metodo di recupero immagini che applica il punteggio Okapi BM25 alle attivazioni sparse di parole visive derivate da un Auto-Encoder Sparse su feature di Vision Transformer, ottenendo un recupero ad alta precisione e interpretabilità che funge da efficiente primo stadio per il riordinamento denso senza necessità di addestramento aggiuntivo.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

Il paper propone "Proof-of-Guardrail", un sistema che utilizza ambienti di esecuzione attendibili (TEE) per fornire prove crittografiche verificabili che le risposte degli agenti AI sono state filtrate da specifici guardrail open-source, garantendo l'integrità del processo di sicurezza senza rivelare la logica proprietaria dell'agente, pur evidenziando i rischi residui di inganno da parte di sviluppatori malevoli.

Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren2026-03-09🤖 cs.AI

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

Il paper presenta StreamWise, un sistema di serving adattivo e modulare che ottimizza l'orchestrazione di modelli generativi multimodali su hardware eterogeneo per abilitare la creazione di podcast video in tempo reale, bilanciando dinamicamente latenza, costi e qualità.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo Bianchini2026-03-09🤖 cs.AI

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

Questo articolo introduce il concetto di "collasso dell'ambiguità" nei modelli linguistici di grandi dimensioni, delineando una tassonomia dei rischi epistemici che ne derivano a livello di processo, output ed ecosistema, e proponendo principi di mitigazione per preservare la negoziazione umana del significato nelle interpretazioni di termini controversi.

Shira Gur-Arieh, Angelina Wang, Sina Fazelpour2026-03-09🤖 cs.AI

Margin and Consistency Supervision for Calibrated and Robust Vision Models

Il paper presenta MaCS, un semplice framework di regolarizzazione che migliora la calibrazione e la robustezza dei modelli di visione artificiale imponendo un margine tra le classi e la coerenza delle previsioni su input perturbati, senza richiedere modifiche architetturali o dati aggiuntivi.

Salim Khazem2026-03-09🤖 cs.AI

Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

Il paper presenta Lexara, un toolkit guidato dagli utenti per valutare i modelli linguistici nell'analisi visiva conversazionale, che integra casi di test realistici, metriche interpretabili per la qualità visiva e linguistica e un'interfaccia interattiva per superare le attuali limitazioni tecniche e metodologiche.

Srishti Palani, Vidya Setlur2026-03-09🤖 cs.AI

Evaluating LLM Alignment With Human Trust Models

Questo studio analizza come il modello linguistico GPT-J-6B rappresenti internamente il concetto di fiducia, rivelando che la sua allineamento strutturale corrisponde maggiormente al modello socio-cognitivo di Castelfranchi rispetto ad altri modelli umani.

Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini2026-03-09🤖 cs.AI

Remote Sensing Image Classification Using Deep Ensemble Learning

Questo studio propone un modello di apprendimento profondo basato su ensemble che integra CNN e Vision Transformers per la classificazione di immagini telerilevate, superando i limiti delle architetture singole e ottenendo prestazioni superiori su diversi dataset grazie a un'efficiente gestione delle risorse computazionali.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

← Precedente Successivo →