cs.AI articoli | Gist.Science

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Il paper propone MCULoRA, un nuovo framework basato su un adattamento a basso rango decoupled e dinamico che risolve i conflitti di gradiente nell'addestramento di modelli per il riconoscimento delle emozioni con modalità incomplete, ottenendo prestazioni superiori rispetto agli approcci esistenti.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Questo paper introduce SGV, un metodo di verifica auto-fondato che mitiga il bias di accordo nei modelli linguistici multimodali, migliorando significativamente l'individuazione degli errori e le prestazioni dei agenti in compiti di navigazione web, uso del computer e robotica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Unified Medical Image Segmentation with State Space Modeling Snake

Il paper presenta Mamba Snake, un nuovo framework di deep snake basato sulla modellazione degli spazi di stato che risolve le sfide dell'segmentazione medica unificata modellando le relazioni topologiche inter-organo e affinando i contorni microscopici, ottenendo prestazioni superiori rispetto agli stati dell'arte su cinque dataset clinici.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Il paper presenta InsightX Agent, un innovativo framework basato su modelli multimodali di grandi dimensioni che integra strumenti di rilevamento e riflessione per fornire analisi di NDT a raggi X più affidabili, interpretabili e interattive, ottenendo un punteggio F1 del 96,54% sul dataset GDXray+.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Questo studio propone un framework di deep learning basato su Vision Transformer (ViT) che, utilizzando immagini Sentinel-2 e Formosat-5 e un approccio di apprendimento semi-supervisionato per espandere le annotazioni manuali, migliora la segmentazione delle aree colpite da disastri naturali, ottimizzando così il prodotto EVAP dell'Agenzia Spaziale Taiwanese (TASA).

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Flow Matching Meets Biology and Life Science: A Survey

Questo articolo presenta la prima survey completa sullo sviluppo recente del flow matching e sulle sue applicazioni nei domini biologici, coprendo la modellazione delle sequenze, la generazione di molecole e la sintesi di peptidi e proteine.

Zihao Li, Zhichen Zeng, Xiao Lin, Feihao Fang, Yanru Qu, Zhe Xu, Zhining Liu, Xuying Ning, Tianxin Wei, Ge Liu, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

Questo articolo presenta UGST, un nuovo framework che risolve il problema della scarsa coerenza negli obiettivi dei simulatori di utenti basati su LLM, migliorando significativamente le loro prestazioni attraverso un monitoraggio dello stato degli obiettivi e una metodologia di valutazione su benchmark consolidati.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL

CauKer: Classification Time Series Foundation Models Can Be Pretrained on Synthetic Data

Il paper presenta CauKer, un algoritmo innovativo che genera serie temporali sintetiche causalmente coerenti per pre-addestrare in modo efficiente modelli foundation per la classificazione, dimostrando leggi di scalabilità superiori rispetto ai dataset reali.

Shifeng Xie, Vasilii Feofanov, Ambroise Odonnat, Lei Zan, Marius Alonso, Jianfeng Zhang, Themis Palpanas, Lujia Pan, Keli Zhang, Ievgen Redko2026-03-10🤖 cs.LG

GraphProp: Training the Graph Foundation Models using Graph Properties

Il paper presenta GraphProp, un metodo per addestrare modelli fondazionali su grafi che migliora la generalizzazione cross-dominio attraverso due fasi: prima l'apprendimento di rappresentazioni strutturali basate su invarianti grafici, poi l'integrazione di attributi specifici del dominio per ottenere prestazioni superiori nelle attività di classificazione, specialmente in contesti privi di attributi nodali.

Ziheng Sun, Qi Feng, Lehao Lin, Chris Ding, Jicong Fan2026-03-10🤖 cs.LG

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Il paper presenta Video-EM, un framework di memoria episodica senza addestramento che migliora la comprensione di video lunghi trasformando la selezione di fotogrammi in una costruzione di eventi temporali coerenti e verificati, permettendo ai modelli linguistici video esistenti di ragionare su contesti estesi senza modifiche architetturali.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniCast: A Unified Framework for Instance-Conditioned Multimodal Time-Series Forecasting

Il paper presenta UniCast, un framework multimodale efficiente che potenzia i modelli fondazionali per le serie temporali mediante prompt condizionati all'istanza e un routing dinamico delle modalità, migliorando significativamente le previsioni sfruttando contesti visivi e testuali senza modificare i modelli di base.

Sehyuk Park, Soyeon Caren Han, Eduard Hovy2026-03-10💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Il paper presenta ECHO, un modello fondazionale innovativo che integra un'architettura a bande divise e embedding posizionali frequenziali per elaborare segnali macchina di lunghezza variabile e a diversi tassi di campionamento, ottenendo prestazioni all'avanguardia nell'individuazione di anomalie e nella classificazione dei guasti.

Yucong Zhang, Juan Liu, Ming Li2026-03-10🤖 cs.LG

Entropy-Driven Curriculum for Multi-Task Training in Human Mobility Prediction

Questo articolo presenta un framework di addestramento unificato che combina un curriculum guidato dall'entropia e l'apprendimento multi-task per migliorare la previsione della mobilità umana, ottenendo prestazioni all'avanguardia e una convergenza più rapida rispetto ai metodi esistenti.

Tianye Fang, Xuanshu Luo, Martin Werner2026-03-10🤖 cs.LG

Improving the Resilience of Quadrotors in Underground Environments by Combining Learning-based and Safety Controllers

Questo lavoro propone un sistema ibrido che combina un controller basato sull'apprendimento con un monitor di sicurezza per garantire la navigazione autonoma e sicura dei quadricotteri in ambienti sotterranei sconosciuti, sfruttando un flusso normalizzante per rilevare le situazioni fuori distribuzione e attivare un controller di sicurezza quando necessario.

Isaac Ronald Ward, Mark Paral, Kristopher Riordan + 1 more2026-03-10⚡ eess

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

Il paper propone OTESGN, una rete che integra trasporto ottimo e grafi sintattico-semantici per migliorare l'analisi del sentiment basata su aspetti, ottenendo risultati all'avanguardia su diversi dataset grazie alla sua capacità di catturare associazioni non lineari e ridurre il rumore contestuale.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying Rong2026-03-10💬 cs.CL

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

Questo studio presenta un sistema innovativo basato sulla visione artificiale e sull'analisi della posizione laterale per classificare in tempo reale comportamenti di guida pericolosi, come distrazione e alterazione, osservando i veicoli dall'esterno senza necessità di comunicazioni inter-veicolari.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

Synthetic Homes: An Accessible Multimodal Pipeline for Producing Residential Building Data with Generative AI

Questo lavoro presenta un framework modulare multimodale basato sull'intelligenza artificiale generativa per produrre dati sintetici realistici sugli edifici residenziali a partire da immagini e informazioni pubbliche, riducendo la dipendenza da fonti dati costose o riservate e facilitando la ricerca sulla simulazione energetica.

Jackson Eshbaugh, Chetan Tiwari, Jorge Silveyra2026-03-10🤖 cs.LG

MICA: Multi-Agent Industrial Coordination Assistant

Il paper presenta MICA, un assistente di coordinamento industriale multi-agente basato su percezione e interazione vocale che, grazie a un meccanismo di fusione adattiva dei passaggi e a un controllo di sicurezza, garantisce assistenza affidabile, privata e funzionante offline per ambienti di fabbrica dinamici.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

Compose by Focus: Scene Graph-based Atomic Skills

Il paper propone un framework di apprendimento delle abilità robotiche basato su grafi di scena che, integrando reti neurali su grafi e apprendimento per imitazione diffuso con un pianificatore VLM, migliora significativamente la robustezza e la generalizzazione composizionale nell'esecuzione di compiti a lungo orizzonte.

Han Qi, Changhe Chen, Heng Yang2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Il paper propone FINS, un framework leggero che ricostruisce efficientemente in pochi secondi superfici implicite e campi SDF ad alta fedeltà partendo da una singola immagine, superando i metodi esistenti in velocità e precisione e dimostrando la propria efficacia in compiti di robotica come il seguire superfici.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

← Precedente Successivo →