Training-free Temporal Object Tracking in Surgical Videos

Questo lavoro presenta un metodo innovativo e privo di addestramento per il tracciamento temporale di oggetti nei video chirurgici laparoscopici, che sfrutta le capacità di localizzazione dei modelli di diffusione pre-addestrati per ottenere prestazioni superiori nel rilevamento di strutture anatomiche e strumenti senza richiedere costose annotazioni pixel-level.

Subhadeep Koley, Abdolrahim Kadkhodamohammadi, Santiago Barbarisi, Danail Stoyanov, Imanol Luengo2026-03-10💻 cs

Structure and Progress Aware Diffusion for Medical Image Segmentation

Il paper propone SPAD, un metodo di diffusione consapevole della struttura e del progresso per la segmentazione di immagini mediche che, attraverso un programma di schedulazione adattivo, apprende prima le strutture morfologiche e semantiche globali e successivamente affina i confini dettagliati, superando le limitazioni delle supervisioni precoci sui bordi ambigui.

Siyuan Song, Guyue Hu, Chenglong Li, Dengdi Sun, Zhe Jin, Jin Tang2026-03-10💻 cs

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Il paper presenta MINT, un framework di addestramento che integra supervisione tramite trascrittomica spaziale nei modelli fondazionali di patologia per migliorare sia la previsione dell'espressione genica che le prestazioni nelle attività patologiche generali senza dimenticare le conoscenze morfologiche preesistenti.

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang2026-03-10💻 cs

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Questo paper propone un framework bayesiano guidato dai concetti per il riconoscimento di immagini zero-shot che supera i limiti dell'ingegneria euristica dei prompt, sintetizzando concetti discriminativi tramite LLM e filtrando gli outlier con una likelihood adattiva per ottenere prestazioni superiori rispetto agli stati dell'arte.

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

Il paper propone IMSE, un metodo di adattamento al test che sfrutta gli esperti spettrali intrinseci dei Vision Transformers tramite la decomposizione SVD e una perdita di massimizzazione della diversità, ottenendo prestazioni all'avanguardia con un numero di parametri aggiornabili drasticamente ridotto.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

Questo studio confronta la generazione di codice TikZ con la sintesi diretta di immagini per convertire diagrammi di automa disegnati a mano dagli studenti in rappresentazioni digitali accurate, dimostrando che la correzione umana delle descrizioni testuali generate dai modelli visione-linguaggio è essenziale per migliorare la qualità del risultato finale e supportare la valutazione automatizzata nell'educazione informatica.

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

Il paper presenta VisualAD, un framework puramente visivo basato su Vision Transformer che, eliminando la dipendenza dai modelli linguaggio-immagine, utilizza token apprendibili e meccanismi di attenzione specifici per raggiungere prestazioni all'avanguardia nella rilevazione di anomalie zero-shot su 13 benchmark industriali e medici.

Yanning Hou, Peiyuan Li, Zirui Liu, Yitong Wang, Yanran Ruan, Jianfeng Qiu, Ke Xu2026-03-10💻 cs