Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Questo studio rivela che, nel contesto medico, il ragionamento a catena di pensiero (CoT) spesso peggiora le prestazioni rispetto alla risposta diretta a causa di un collo di bottiglia nella percezione visiva, ma dimostra che interventi di ancoraggio percettivo e grounding descrittivo possono ripristinare l'accuratezza migliorando l'allineamento cross-modale.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Il paper presenta SJD-PV, un metodo di accelerazione senza addestramento per la generazione di immagini autoregressiva che riduce la latenza fino al 30% verificando speculativamente gruppi di token correlati (frasi) invece di singoli token, preservando al contempo la qualità visiva.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Lo studio dimostra che, sebbene l'inizializzazione con rumore semantico mostri un lieve trend positivo su alcune dimensioni temporali nella generazione video, i risultati complessivi non superano significativamente la baseline con rumore gaussiano a causa di un segnale debole e instabile, suggerendo l'adozione di valutazioni accoppiate e diagnosi nello spazio del rumore come pratica standard.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Questo articolo presenta un autoencoder CNN non supervisionato, dotato di una funzione di perdita basata sulla distanza angolare spettrale ponderata (WSAD), per l'analisi non distruttiva e l'identificazione automatica dei componenti nei campioni stratificati di dipinti storici, come dimostrato su una sezione trasversale del Polittico di Gand.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

Il paper presenta AutoFigure-Edit, un sistema end-to-end che genera illustrazioni scientifiche completamente modificabili e adattabili stilisticamente partendo da testi lunghi, combinando la comprensione del contesto, lo stile guidato da riferimenti e la modifica nativa in SVG.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Il paper propone ECHO, un framework multi-agente che utilizza operazioni su ipergrafi condivisi e una strategia di collegamento prima del vincolo per migliorare l'estrazione di eventi multimodali riducendo gli errori di propagazione e superando le prestazioni dello stato dell'arte.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Questo articolo presenta un approccio innovativo basato su tecniche di Structure-from-Motion e segmentazione 3D che permette di ricostruire e analizzare la forma e le dimensioni degli aggregati direttamente dalle foto o video acquisiti con dispositivi mobili, offrendo una soluzione economica e pratica per il controllo qualità in cantiere.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Il paper introduce TimeSpot, un nuovo benchmark composto da 1.455 immagini reali provenienti da 80 paesi per valutare le capacità di ragionamento geo-temporale dei modelli visione-linguaggio, evidenziando che, nonostante i recenti progressi, questi modelli mostrano prestazioni ancora limitate nell'inferenza temporale e nella comprensione spaziale fisicamente fondata.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Il paper presenta "Narrative Weaver", un nuovo framework che risolve il problema della coerenza visiva a lungo raggio nella generazione di contenuti AI integrando pianificazione narrativa multimodale, controllo dettagliato e un meccanismo di memoria dinamica, supportato dal primo dataset di benchmark specifico per storyboard pubblicitari.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Questo lavoro presenta un nuovo framework di apprendimento non supervisionato basato su filtri convoluzionali e reti neurali che, pur in assenza di dataset di addestramento e in condizioni di forte rumore, permette una ricostruzione ad alta fedeltà delle immagini del fascio e una risoluzione senza precedenti della struttura dell'alone nei diagnostici di acceleratori di particelle.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Questo studio dimostra che, sebbene il modello fondazionale multimodale TerraMind possa adattarsi a compiti di imaging iperspettrale tramite strategie di selezione delle bande, le prestazioni inferiori rispetto ai modelli nativi evidenziano la necessità urgente di integrare un tokenizzazione spettrale nativa nelle future architetture di modelli fondazionali geospaziali.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

Questo articolo presenta un framework robusto per il rilevamento in un solo passaggio di volanti da badminton per robot mobili, introducendo un nuovo dataset annotato semi-automaticamente e un modello YOLOv8 ottimizzato che funziona efficacemente sia in ambienti noti che in scenari completamente nuovi, superando i limiti delle precedenti soluzioni basate su telecamere fisse.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs