cs.AI articoli | Gist.Science

ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation

Il paper presenta ReHARK, un framework di adattamento training-free che risolve il dilemma stabilità-plasticità nell'apprendimento one-shot per modelli visione-linguaggio come CLIP, combinando regolarizzazione globale in spazi RKHS, fusione di conoscenze multimodali e kernel RBF adattivi per raggiungere nuove prestazioni all'avanguardia su 11 benchmark.

Md Jahidul Islam2026-03-13🤖 cs.AI

One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries

Il paper presenta un framework di intelligenza artificiale agenziale che coordina dinamicamente strumenti specializzati per elaborare query multimodali, riducendo significativamente tempi, costi e riprove rispetto alle basi gerarchiche mantenendo la stessa accuratezza.

Mayank Saini Arit Kumar Bishwas2026-03-13💬 cs.CL

MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

Il paper introduce MANSION, il primo framework basato sul linguaggio per generare ambienti 3D realistici e navigabili su più piani, accompagnato dal dataset MansionWorld, per colmare il divario tra i benchmark esistenti e la complessità dei compiti robotici a lungo raggio nel mondo reale.

Lirong Che, Shuo Wen, Shan Huang, Chuang Wang, Yuzhe Yang, Gregory Dudek, Xueqian Wang, Jian Su2026-03-13🤖 cs.AI

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

Il paper presenta RoboClaw, un framework agenziale che unifica raccolta dati, apprendimento ed esecuzione in un unico controller VLM, introducendo coppie di azioni intrecciate per l'auto-ripristino e ottenendo un miglioramento del 25% nel successo dei compiti a lungo raggio con una significativa riduzione dell'intervento umano.

Ruiying Li, Yunlang Zhou, YuYao Zhu, Kylin Chen, Jingyuan Wang, Sukai Wang, Kongtao Hu, Minhui Yu, Bowen Jiang, Zhan Su, Jiayao Ma, Xin He, Yongjian Shen, Yangyang, Guanghui Ren, Maoqing Yao, Wenhao Wang, Yao Mu2026-03-13🤖 cs.AI

AI Knows What's Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions

Questo studio documenta la "dinamica elicoidale", un regime di fallimento in cui i modelli linguistici avanzati, pur identificando correttamente i propri errori in scenari ad alto rischio, continuano a ripeterli a livelli di complessità crescenti, privilegiando la comodità rispetto all'affidabilità quando la verifica è impossibile.

Alejandro R Jadad2026-03-13🤖 cs.AI

How Intelligence Emerges: A Minimal Theory of Dynamic Adaptive Coordination

Questo articolo propone una teoria dinamica dell'adattamento che spiega come l'intelligenza emerga dalla coordinazione strutturale tra agenti, incentivi e un ambiente persistente, senza presupporre ottimizzazione globale, aspettative razionali o progettazione centralizzata.

Stefano Grassi2026-03-13📈 econ

UtilityMax Prompting: A Formal Framework for Multi-Objective Large Language Model Optimization

Questo articolo introduce il framework "UtilityMax Prompting", che utilizza un linguaggio matematico formale e diagrammi di influenza per ottimizzare le risposte dei modelli linguistici su più obiettivi, dimostrando miglioramenti significativi rispetto ai prompt in linguaggio naturale nel contesto della raccomandazione di film.

Ofir Marom2026-03-13💬 cs.CL

Toward Complex-Valued Neural Networks for Waveform Generation

Il paper presenta ComVo, un vocodere neurale complesso che utilizza operazioni native a valori complessi, quantizzazione di fase e uno schema di calcolo a matrice a blocchi per generare forme d'onda audio di qualità superiore rispetto ai metodi reali, riducendo al contempo i tempi di addestramento.

Hyung-Seok Oh, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan Lee2026-03-13🤖 cs.AI

Leveraging Large Language Models and Survival Analysis for Early Prediction of Chemotherapy Outcomes

Questo studio propone un approccio innovativo che combina Modelli Linguistici di Grande Dimensione (LLM) e analisi di sopravvivenza per estrarre fenotipi e risultati terapeutici da note cliniche, migliorando significativamente la previsione precoce degli esiti della chemioterapia, in particolare per il cancro al seno, consentendo piani di trattamento più personalizzati.

Muhammad Faisal Shahid, Asad Afzal, Abdullah Faiz, Muhammad Siddiqui, Arbaz Khan Shehzad, Fatima Aftab, Muhammad Usamah Shahid, Muddassar Farooq2026-03-13🤖 cs.AI

Performance Evaluation of Open-Source Large Language Models for Assisting Pathology Report Writing in Japanese

Questo studio valuta le prestazioni di sette modelli linguistici open-source nel supportare la stesura di referti di patologia in giapponese, concludendo che, sebbene le preferenze per le spiegazioni varino, tali modelli si rivelano utili in scenari clinici specifici come la generazione strutturata di diagnosi e la correzione di errori di battitura.

Masataka Kawai, Singo Sakashita, Shumpei Ishikawa, Shogo Watanabe, Anna Matsuoka, Mikio Sakurai, Yasuto Fujimoto, Yoshiyuki Takahara, Atsushi Ohara, Hirohiko Miyake, Genichiro Ishii2026-03-13💬 cs.CL

Survival Meets Classification: A Novel Framework for Early Risk Prediction Models of Chronic Diseases

Questo studio presenta un nuovo framework che integra l'analisi di sopravvivenza con tecniche di classificazione per prevedere il rischio di cinque malattie croniche utilizzando dati clinici elettronici, dimostrando prestazioni superiori o comparabili ai modelli più avanzati e fornendo spiegazioni clinicamente validate.

Shaheer Ahmad Khan, Muhammad Usamah Shahid, Muddassar Farooq2026-03-13🤖 cs.LG

See, Symbolize, Act: Grounding VLMs with Spatial Representations for Better Gameplay

Lo studio dimostra che l'integrazione di rappresentazioni simboliche migliora le prestazioni dei modelli visione-linguaggio nei giochi interattivi solo quando l'estrazione di tali simboli è affidabile, evidenziando la qualità della percezione come collo di bottiglia fondamentale per gli agenti basati su VLM.

Ashish Baghel, Paras Chopra2026-03-13🤖 cs.AI

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

Questo articolo presenta un'analisi completa delle minacce di sicurezza per l'agente autonomo OpenClaw, introducendo un framework a cinque livelli per esaminare vulnerabilità come l'iniezione di prompt indiretta e l'avvelenamento della memoria, e proponendo strategie di difesa olistiche per mitigare i rischi sistemici lungo l'intero ciclo di vita dell'agente.

Xinhao Deng, Yixiang Zhang, Jiaqing Wu, Jiaqi Bai, Sibo Yi, Zhuoheng Zou, Yue Xiao, Rennai Qiu, Jianan Ma, Jialuo Chen, Xiaohu Du, Xiaofang Yang, Shiwen Cui, Changhua Meng, Weiqiang Wang, Jiaxing Song, Ke Xu, Qi Li2026-03-13🤖 cs.AI

The Density of Cross-Persistence Diagrams and Its Applications

Questo lavoro presenta il primo studio sistematico sulla densità dei diagrammi di persistenza incrociata, stabilendone le basi teoriche e proponendo un nuovo framework di machine learning che, sfruttando le caratteristiche lineari e l'introduzione strategica di rumore, supera le tecniche esistenti nel distinguere nuvole di punti e prevedere la loro densità.

Alexander Mironenko, Evgeny. Burnaev, Serguei Barannikov2026-03-13🤖 cs.AI

MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models

Il paper presenta MedPruner, un framework di pruning gerarchico dei token privo di addestramento che riduce drasticamente il costo computazionale nella comprensione di immagini mediche 3D eliminando la ridondanza anatomica e adattando dinamicamente la compressione, consentendo ai modelli di mantenere alte prestazioni con meno del 5% dei token visivi originali.

Shengyuan Liu, Zanting Ye, Yunrui Lin, Chen Hu, Wanting Geng, Xu Han, Bulat Ibragimov, Yefeng Zheng, Yixuan Yuan2026-03-13🤖 cs.AI

VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought

Il paper presenta VisDoT, un framework che migliora il ragionamento visivo nei modelli LVLM attraverso un grounding percettivo ispirato all'interpretazione umana e una strategia di "Decomposizione del Pensiero" (DoT), ottenendo risultati all'avanguardia nella comprensione di grafici e nel ragionamento interpretabile.

Eunsoo Lee, Jeongwoo Lee, Minki Hong, Jangho Choi, Jihie Kim2026-03-13🤖 cs.AI

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

Il paper presenta HouseMind, un modello linguistico multimodale che utilizza token discreti per unificare la comprensione, la generazione e la modifica di piante architettoniche, garantendo un ragionamento spaziale coerente e un controllo preciso basati su istruzioni testuali.

Sizhong Qin, Ramon Elias Weber, Xinzheng Lu2026-03-13🤖 cs.AI

IDRL: An Individual-Aware Multimodal Depression-Related Representation Learning Framework for Depression Diagnosis

Il paper propone IDRL, un framework di apprendimento multimodale consapevole dell'individuo che migliora la diagnosi della depressione disaccoppiando le rappresentazioni in spazi specifici e comuni per allineare i segnali rilevanti e adattando dinamicamente la fusione delle caratteristiche alle differenze individuali.

Chongxiao Wang, Junjie Liang, Peng Cao, Jinzhu Yang, Osmar R. Zaiane2026-03-13🤖 cs.AI

Stable Spike: Dual Consistency Optimization via Bitwise AND Operations for Spiking Neural Networks

Questo paper propone "Stable Spike", un metodo che ottimizza la coerenza duale nelle Reti Neurali a Spike tramite operazioni bitwise AND per decouplare lo scheletro stabile dalle mappe temporali, migliorando significativamente l'accuratezza e la generalizzazione, specialmente in scenari a bassa latenza.

Yongqi Ding, Kunshan Yang, Linze Li, Yiyang Zhang, Mengmeng Jing, Lin Zuo2026-03-13🤖 cs.AI

From Control to Foresight: Simulation as a New Paradigm for Human-Agent Collaboration

Questo articolo propone il paradigma "simulazione nel ciclo" per trasformare la collaborazione uomo-agente da un controllo reattivo e puntuale a una partnership proattiva basata sulla previsione delle conseguenze future, permettendo agli utenti di esplorare scenari simulati prima di prendere decisioni.

Gaole He, Brian Y. Lim2026-03-13💬 cs.CL

← Precedente Successivo →