Enabling clinical use of foundation models in histopathology

Questo studio dimostra che l'introduzione di nuove funzioni di perdita per la robustezza durante l'addestramento di modelli specifici per compiti, senza dover riaddestrare i modelli fondazionali, riduce la sensibilità alla variabilità tecnica e migliora sia la robustezza che l'accuratezza predittiva, rendendo i modelli di patologia computazionale basati su foundation models adatti all'uso clinico routinario.

Audun L. Henriksen, Ole-Johan Skrede, Lisa van der Schee + 31 more2026-02-27🤖 cs.AI

Optimizing Neural Network Architecture for Medical Image Segmentation Using Monte Carlo Tree Search

Questo articolo presenta MNAS-Unet, un innovativo framework per la segmentazione di immagini mediche che integra la Ricerca di Architetture Neurali con la Ricerca ad Albero Monte Carlo per ottenere modelli più leggeri, efficienti e accurati rispetto agli stati dell'arte, riducendo significativamente il budget di ricerca e il consumo di risorse.

Liping Meng, Fan Nie, Yunyun Zhang + 1 more2026-02-27💻 cs

Enhancing Renal Tumor Malignancy Prediction: Deep Learning with Automatic 3D CT Organ Focused Attention

Questo studio presenta un framework di deep learning che utilizza una funzione di perdita "Organ Focused Attention" per prevedere la malignità dei tumori renali tramite immagini TC 3D senza necessità di segmentazione manuale, ottenendo prestazioni superiori ai modelli tradizionali e offrendo un metodo più efficiente per la diagnosi clinica.

Zhengkang Fan, Chengkun Sun, Russell Terry + 2 more2026-02-27🤖 cs.AI

MolFM-Lite: Multi-Modal Molecular Property Prediction with Conformer Ensemble Attention and Cross-Modal Fusion

Il paper presenta MolFM-Lite, un modello multi-modale che migliora la previsione delle proprietà molecolari integrando sequenze, grafi ed ensemble conformazionali tramite meccanismi di attenzione incrociata e fusione contestuale, ottenendo significativi guadagni prestazionali rispetto ai metodi a modalità singola.

Syed Omer Shah, Mohammed Maqsood Ahmed, Danish Mohiuddin Mohammed + 2 more2026-02-27🤖 cs.LG

Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge

Questo studio dimostra che l'implementazione di modelli linguistici multimodali su dispositivi edge, attraverso un'architettura asincrona che trasforma il video in memoria testuale, consente di ottenere risposte a domande sull'episodio visivo in tempo reale con prestazioni competitive rispetto alle soluzioni cloud, garantendo al contempo privacy e bassa latenza.

Giuseppe Lando, Rosario Forte, Antonino Furnari2026-02-27💻 cs

MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

Il paper presenta MammoWise, un pipeline locale multi-modello basato su VLM open source e RAG che trasforma le immagini di mammografia in report strutturati e classifiche BI-RADS, dimostrando come il fine-tuning efficiente e il prompting avanzato migliorino significativamente l'accuratezza e la qualità della generazione dei referti radiologici.

Raiyan Jahangir, Nafiz Imtiaz Khan, Amritanand Sudheerkumar + 1 more2026-02-27💻 cs

Space Syntax-guided Post-training for Residential Floor Plan Generation

Questo articolo propone la Space Syntax-guided Post-training (SSPT), un paradigma di post-addestramento che integra la conoscenza della sintassi spaziale nella generazione di planimetrie residenziali tramite un oracolo non differenziabile e tecniche di reinforcement learning, migliorando significativamente la dominanza degli spazi pubblici e la gerarchia funzionale rispetto ai modelli basati puramente sulla distribuzione dei dati.

Zhuoyang Jiang, Dongqing Zhang2026-02-27🤖 cs.LG

Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

Il paper presenta Pix2Key, un metodo per il recupero di immagini composte che utilizza dizionari visivi open-vocabulary e un preaddestramento auto-supervisionato per allineare con precisione l'intento dell'utente mantenendo alta la diversità dei risultati, ottenendo miglioramenti significativi sul benchmark DFMM-Compose.

Guoyizhe Wei, Yang Jiao, Nan Xi + 4 more2026-02-27💻 cs