cs.AI articoli | Gist.Science

Probabilistic Dreaming for World Models

Questo lavoro propone un'evoluzione del modello Dreamer basata su metodi probabilistici che permettono l'esplorazione parallela di stati latenti e il mantenimento di ipotesi distinte per futuri mutualmente esclusivi, ottenendo su MPE SimpleTag un miglioramento del punteggio del 4,5% e una riduzione del 28% della varianza rispetto al metodo standard.

Gavin Wong2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Questo studio propone un framework di valutazione a due livelli per analizzare l'efficacia dei modelli AI nel simulare le domande specifiche dei giudici durante le arringhe orali, rivelando che, sebbene le domande generate siano percepite come realistiche e coprano bene i temi legali sostanziali, i modelli presentano ancora carenze significative come la scarsa diversità e la sycophancy che i metodi di valutazione ingenui non riescono a rilevare.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Questo documento presenta "Model Medicine", un quadro clinico interdisciplinare che applica principi biologici e medici per diagnosticare, trattare e prevenire disturbi nei modelli di intelligenza artificiale, introducendo una tassonomia di discipline, strumenti diagnostici come la "Neural MRI" e framework terapeutici per gestire la complessità dei sistemi AI.

Jihoon Jeong2026-03-06💻 cs

From Offline to Periodic Adaptation for Pose-Based Shoplifting Detection in Real-world Retail Security

Questo articolo presenta un framework di adattamento periodico per la rilevazione di furti nei negozi basato sulla postura, che utilizza il nuovo dataset reale RetailS per abilitare un rilevamento di anomalie scalabile, a bassa latenza e adattivo su dispositivi IoT di bordo, superando le prestazioni dei metodi offline tradizionali.

Shanle Yao, Narges Rashvand, Armin Danesh Pazho + 1 more2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Questo studio dimostra che, sebbene i modelli linguistici multimodali possano essere adattati per il rilevamento di anomalie video tramite istruzioni specifiche, soffrono di un forte bias conservativo in modalità zero-shot che ne limita l'utilità pratica a causa di una scarsa capacità di recupero (recall) in ambienti reali.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Questo articolo presenta un sistema neuro-simbolico che combina il modello linguistico Gemini Deep Think con una ricerca ad albero e feedback numerico per risolvere autonomamente un problema aperto nella fisica teorica, derivando nuove soluzioni analitiche esatte per lo spettro di potenza della radiazione gravitazionale emessa dalle stringhe cosmiche.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

Il paper propone "Interactive Benchmarks", un nuovo paradigma di valutazione unificato che misura l'intelligenza dei modelli attraverso processi interattivi sotto vincoli di budget, dimostrando che tale approccio offre una valutazione più robusta e fedele rispetto ai benchmark standard saturi.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

Memory as Ontology: A Constitutional Memory Architecture for Persistent Digital Citizens

Questo articolo propone il paradigma "Memoria come Ontologia" e l'architettura costituzionale Animesis per ridefinire la memoria degli agenti AI non come un semplice strumento funzionale, ma come il fondamento ontologico dell'identità digitale che garantisce la continuità del sé attraverso le transizioni dei modelli.

Zhenghui Li2026-03-06✓ Author reviewed ⓘ💻 cs

CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

Il paper presenta CONE, un modello ibrido pre-addestrato che utilizza un nuovo algoritmo di embedding composito per codificare numeri, intervalli e gaussiane insieme alle loro unità e attributi, preservando le relazioni semantiche e di distanza e ottenendo risultati superiori rispetto agli stati dell'arte in compiti di ragionamento numerico su dataset diversificati.

Gyanendra Shrestha, Anna Pyayt, Michael Gubanov2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Il paper presenta DARE, un modello di recupero distribuzionale-aware che, integrato con un nuovo agente LLM per R e un database di pacchetti curato, migliora significativamente il recupero di funzioni statistiche e la generazione di codice, colmando il divario tra l'automazione dei LLM e l'ecosistema statistico di R.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

Visioning Human-Agentic AI Teaming: Continuity, Tension, and Future Research

Questo articolo propone un'evoluzione della teoria della Situational Awareness di squadra per affrontare le nuove sfide poste dall'IA agenziale, distinguendo tra continuità e tensioni strutturali per definire un'agenda di ricerca che garantisca un allineamento dinamico e continuo tra umani e AI in scenari aperti e incerti.

Bowen Lou, Tian Lu, T. S. Raghu + 1 more2026-03-06💻 cs

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

HiMAP-Travel è un framework di pianificazione gerarchico multi-agente che risolve i problemi di pianificazione a lungo termine con vincoli rigidi, come budget e diversità, suddividendo il compito in coordinamento strategico ed esecuzione parallela dei giorni, ottenendo prestazioni superiori rispetto alle soluzioni sequenziali esistenti.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Evaluating the Search Agent in a Parallel World

Il paper propone Mind-ParaWorld, un nuovo framework e benchmark interattivo che valuta gli agenti di ricerca in un "mondo parallelo" generato sinteticamente per superare le sfide di obsolescenza dei dati, ambiguità di attribuzione e variabilità delle fonti, rivelando come le prestazioni attuali siano limitate dalla capacità di giudicare la sufficienza delle prove e di prendere decisioni sul momento di arresto.

Jiawei Chen, Xintian Shen, Lihao Zheng + 7 more2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

MOOSEnger è un agente AI specializzato che, combinando generazione basata su recupero di documenti e strumenti di parsing e validazione deterministici, trasforma le richieste in linguaggio naturale in file di input MOOSE eseguibili, raggiungendo un tasso di successo del 93% rispetto all'8% ottenuto da un modello linguistico puro.

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

Il paper presenta SharedLLM, un framework innovativo che estende la finestra contestuale dei modelli linguistici fino a 128K token tramite un meccanismo di "self-injection" a due livelli che comprime e recupera informazioni in modo efficiente, ottenendo prestazioni superiori con un ridotto footprint di memoria e velocità di inferenza notevolmente aumentate.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Questo commento paesaggistico valuta la famiglia GPT-5 come ragionatore clinico multimodale, evidenziando significativi progressi nel ragionamento testuale e nella sintesi multimodale rispetto a GPT-4o, pur rilevando che i modelli generalisti non sostituiscono ancora i sistemi specializzati in compiti critici di percezione come la neuroradiologia e la mammografia.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Il paper propone DSA-SRGS, il primo framework di gaussian splatting a super-risoluzione per la ricostruzione dinamica di angiografie digitali (DSA) da viste sparse, che integra un modulo di apprendimento della texture multi-fiducia e una densificazione radiativa sub-pixel per recuperare dettagli vascolari fini eliminando artefatti di sfocatura e aliasing.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

Il paper presenta MADCrowner, un framework di generazione di mesh dentali consapevole del margine che combina deformazione di template basata su contesto anatomico e segmentazione del margine cervicale per superare le limitazioni dei metodi esistenti, garantendo maggiore accuratezza geometrica e fattibilità clinica.

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

Il paper presenta TSEmbed, un framework di embedding multimodale universale che combina Mixture-of-Experts e LoRA con un nuovo campionamento negativo consapevole degli esperti per risolvere i conflitti tra task e raggiungere prestazioni all'avanguardia su benchmark multimodali e dataset industriali.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

Il paper presenta RLSTA, un approccio di apprendimento per rinforzo che utilizza risposte a turno singolo come ancoraggi stabili per superare l'inerzia contestuale e migliorare l'affidabilità delle interazioni multi-turno degli LLM.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

← Precedente Successivo →