cs.AI articoli | Gist.Science

Remote Sensing Image Classification Using Deep Ensemble Learning

Questo studio propone un modello di apprendimento profondo basato su ensemble che integra CNN e Vision Transformers per la classificazione di immagini telerilevate, superando i limiti delle architetture singole e ottenendo prestazioni superiori su diversi dataset grazie a un'efficiente gestione delle risorse computazionali.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

Il paper presenta MACRO, un agente medico auto-evolutivo che supera i limiti dei sistemi statici scoprendo autonomamente e integrando nuove competenze strumentali composite basate sull'esperienza clinica, migliorando così l'accuratezza e la generalizzazione nell'orchestrazione di strumenti per l'interpretazione di immagini mediche.

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

Computational Pathology in the Era of Emerging Foundation and Agentic AI -- International Expert Perspectives on Clinical Integration and Translational Readiness

Questo articolo offre una valutazione pratica delle capacità attuali e delle barriere all'adozione dei modelli fondazionali e degli agenti di intelligenza artificiale nella patologia computazionale, analizzando le sfide economiche, tecniche e normative necessarie per la loro responsabile integrazione nella pratica clinica globale.

Qian Da, Yijiang Chen, Min Ju, Zheyi Ji, Albert Zhou, Wenwen Wang, Matthew A Abikenari, Philip Chikontwe, Guillaume Larghero, Bowen Chen, Peter Neiglinger, Dingrong Zhong, Shuhao Wang, Wei Xu, Drew Williamson, German Corredor, Sen Yang, Le Lu, Xiao Han, Kun-Hsing Yu, Jun-zhou Huang, Laura Barisoni, Geert Litjens, Anant Madabhushi, Lifeng Zhu, Chaofu Wang, Junhan Zhao, Weiguo Hu2026-03-09🤖 cs.AI

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

Il paper presenta JHCodec, un codec audio neurale che utilizza una funzione di perdita di ricostruzione delle rappresentazioni auto-supervisionate (SSRR) per ottenere un'alta intelligibilità e una bassa latenza nel streaming, consentendo un'architettura a zero lookahead e riducendo significativamente i costi di addestramento.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim Dehak2026-03-09🤖 cs.AI

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Il paper presenta ConStory-Bench, un nuovo benchmark e un sistema di verifica automatizzata (ConStory-Checker) progettati per valutare e analizzare le inconsistenze narrative nella generazione di storie lunghe da parte dei modelli linguistici, rivelando che tali errori sono più frequenti nei fatti e nella temporalità e tendono a manifestarsi nella parte centrale delle narrazioni.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

Il paper introduce RePO, un nuovo approccio di ottimizzazione che combina l'esplorazione tramite apprendimento per rinforzo con reward verificabili e la guida di riferimento tramite addestramento supervisionato, superando i limiti delle tecniche attuali nell'ottimizzazione molecolare basata su LLM in assenza di dati di traiettoria.

Xuan Li, Zhanke Zhou, Zongze Li, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han2026-03-09🤖 cs.AI

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

LUMINA è un framework di esplorazione architetturale GPU guidato da modelli linguistici (LLM) che, attraverso l'analisi automatizzata dei colli di bottiglia e l'auto-correzione delle regole di ottimizzazione, identifica in modo efficiente design superiori rispetto all'A100 con un costo di ricerca drasticamente inferiore rispetto ai metodi tradizionali e basati su machine learning.

Tao Zhang, Rui Ma, Shuotao Xu, Peng Cheng, Yongqiang Xiong2026-03-09🤖 cs.AI

The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Il paper propone ProEvolve, un framework basato su grafi che rende programmabile l'evoluzione degli ambienti di benchmark per agenti LLM, permettendo di generare dinamicamente scenari variabili per valutare meglio la loro adattabilità ai cambiamenti del mondo reale.

Guangrui Li, Yaochen Xie, Yi Liu, Ziwei Dong, Xingyuan Pan, Tianqi Zheng, Jason Choi, Michael J. Morais, Binit Jha, Shaunak Mishra, Bingrou Zhou, Chen Luo, Monica Xiao Cheng, Dawn Song2026-03-09🤖 cs.AI

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

Il paper introduce CORE-Seg, un framework end-to-end che integra il ragionamento cognitivo e la segmentazione medica tramite un adattatore di prompt guidato semanticamente e un meccanismo di ricompensa adattivo, ottenendo risultati all'avanguardia nella segmentazione di lesioni complesse grazie al benchmark ComLesion-14K.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

Il paper presenta DeepFact, un framework che introduce un metodo di benchmarking evolutivo chiamato "Audit-then-Score" per migliorare l'affidabilità della verifica dei fatti nei report di ricerca approfondita, accompagnato da un agente di valutazione che supera i sistemi esistenti.

Yukun Huang, Leonardo F. R. Ribeiro, Momchil Hardalov, Bhuwan Dhingra, Markus Dreyer, Venkatesh Saligrama2026-03-09🤖 cs.AI

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

Questo studio presenta un framework integrato che combina un'architettura Node Transformer con l'analisi del sentiment basata su BERT per la previsione dei prezzi azionari, ottenendo risultati superiori rispetto ai modelli tradizionali grazie alla capacità di catturare le dipendenze cross-settoriali e l'impatto delle notizie, come dimostrato su 20 titoli S&P 500 con un errore medio assoluto percentuale (MAPE) dell'0,80%.

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Il paper presenta BlackMirror, un framework innovativo e senza addestramento per il rilevamento di backdoor nei modelli text-to-image in scenari black-box, che individua anomalie semantiche tramite l'allineamento tra istruzioni e risposte visive invece di basarsi sulla similarità delle immagini generate.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

Il paper introduce RAC (Rectified Flow Auto Coder), un'architettura ispirata al Rectified Flow che sostituisce i VAE tradizionali offrendo decodifica multi-passo correggibile, inferenza bidirezionale con riduzione dei parametri e una qualità generativa superiore a costi computazionali inferiori.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Addressing the Ecological Fallacy in Larger LMs with Human Context

Questo studio dimostra che modellare il contesto linguistico dell'autore, affrontando la fallacia ecologica tramite tecniche come HuLM e HuFT, migliora significativamente le prestazioni di un modello Llama da 8 miliardi di parametri rispetto ai metodi di addestramento standard.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Facial Expression Recognition Using Residual Masking Network

Questo articolo propone una nuova Rete di Mascheramento Residuale che combina reti neurali residue e un'architettura simile a Unet per migliorare il riconoscimento delle espressioni facciali, ottenendo risultati all'avanguardia sui dataset FER2013 e VEMO.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Questo lavoro presenta un approccio sistematico di XAI che trasforma le tracce di esecuzione grezze degli agenti di codifica basati su LLM in spiegazioni strutturate e visuali, migliorando significativamente la velocità e l'accuratezza con cui gli utenti identificano le cause degli errori e propongono soluzioni rispetto all'uso di tracce non elaborate o spiegazioni ad hoc.

Arun Joshi2026-03-09🤖 cs.AI

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

Il paper presenta E-AdaPrune, un framework di pruning adattivo guidato dall'energia che ottimizza l'efficienza dei modelli visione-linguaggio allocando dinamicamente il budget dei token in base alla densità informativa delle immagini, ottenendo prestazioni superiori senza parametri aggiuntivi.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Il paper presenta modelli interpretabili che integrano tratti psicologici individuali e contesti situazionali, derivati da dati social media e teorie psicologiche, per prevedere il benessere mentale e identificare stati di sé adattivi o maladattivi, dimostrando che gli approcci basati sulla teoria offrono prestazioni competitive e maggiore trasparenza rispetto alle sole rappresentazioni vettoriali dei modelli linguistici.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Domain-Adaptive Model Merging across Disconnected Modes

Il paper presenta DMM, un framework di fusione di modelli privo di dati che, attraverso la sintesi di pseudo-dati e la distillazione della conoscenza, integra efficacemente modelli addestrati su domini diversi preservando le informazioni critiche senza necessità di condividere i dati originali.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian Wu2026-03-09🤖 cs.AI

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Il paper introduce S2I (Skeleton-to-Image Encoding), un nuovo metodo che trasforma le sequenze scheletriche in dati simili a immagini per sfruttare modelli di visione pre-addestrati su larga scala, permettendo così un apprendimento di rappresentazione auto-supervisionato efficace e generalizzabile per l'analisi dello scheletro umano.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

← Precedente Successivo →