YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

Il paper introduce YOLO-NAS-Bench, il primo benchmark surrogato per la ricerca architettonica di modelli YOLO, che utilizza un meccanismo di auto-evoluzione per affinare un predittore basato su LightGBM, permettendo di scoprire architetture di rilevamento oggetti superiori alle versioni ufficiali con costi di valutazione drasticamente ridotti.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao Wang2026-03-11💻 cs

RiO-DETR: DETR for Real-time Oriented Object Detection

Il paper presenta RiO-DETR, il primo trasformatore di rilevamento orientato in tempo reale che risolve le sfide specifiche degli angoli attraverso design nativi come la stima dell'angolo guidata dal contenuto e la raffinazione periodica disaccoppiata, ottenendo un nuovo compromesso tra velocità e accuratezza su dataset orientati.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

First Steps towards Categorical Algebraic Artificial Chemistry

Il paper costruisce un funtore che assegna una dinamica a un modello algebrico di componenti interagenti, generalizzando il modello computazionale AlChemy di Fontana e Buss e proponendo l'uso della teoria delle categorie come strumento organizzativo per formalizzare la connessione tra gli aspetti algebrici e dinamici di tali modelli.

Joe Pratt-Johns (Edinburgh Napier University), Toby St. Clere Smithe (Kodamai Ltd), Chris Guiver (Edinburgh Napier University), Kevin Hughes (Edinburgh Napier University), Peter Andras (Edinburgh Napier University)2026-03-11💻 cs

SEA-Nav: Efficient Policy Learning for Safe and Agile Quadruped Navigation in Cluttered Environments

Il paper presenta SEA-Nav, un framework di apprendimento per rinforzo che combina funzioni di barriera differenziabili, un meccanismo di replay adattivo e vincoli cinematici per permettere ai robot quadrupedi di navigare in modo sicuro e agile in ambienti densamente ostacolati con un tempo di addestramento di soli pochi minuti.

Shiyi Chen, Mingye Yang, Haiyan Mao, Jiaqi Zhang, Haiyi Liu, Shuheng He, Debing Zhang, Zihao Qiu, Chun Zhang2026-03-11💻 cs

TopoOR: A Unified Topological Scene Representation for the Operating Room

Il paper presenta TopoOR, un nuovo paradigma che utilizza una rappresentazione topologica di ordine superiore per modellare le sale operatorie, superando i limiti delle strutture tradizionali preservando le relazioni complesse e multimodali necessarie per la sicurezza chirurgica e ottenendo risultati superiori in compiti critici come il rilevamento di violazioni della sterilità e la previsione delle azioni.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

Experience Report on the Adaptable Integration of Requirements Engineering Courses into Curricula for Professionals

Questo articolo descrive l'esperienza maturata nello sviluppo di tre curricula di ingegneria del software per professionisti e illustra un approccio sistematico basato sul mappaggio dei contenuti per integrare efficacemente corsi di ingegneria dei requisiti in programmi modulari e dinamici.

Oleksandr Kosenkov, Konstantin Blaschke, Tony Gorschek, Michael Unterkalmsteiner, Oleksandr Adamov, Davide Fucci2026-03-11💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Il paper presenta il Corpus Patrologia Graeca, la prima risorsa OCR e linguistica aperta su larga scala per le edizioni greche del XIX secolo, ottenuta tramite una pipeline avanzata che raggiunge un'accuratezza eccezionale nel riconoscimento del greco politonico degradato e fornisce sei milioni di token annotati per la ricerca filologica e l'addestramento di modelli di linguaggio.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Il paper introduce OmniEarth, un benchmark completo per valutare le capacità di percezione, ragionamento e robustezza dei modelli visione-linguaggio applicati all'osservazione della Terra, evidenziando attraverso una rigorosa valutazione su 9.275 immagini e 44.210 istruzioni che le attuali soluzioni faticano ancora a gestire compiti geospaziali complessi.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Il paper presenta MORE-R1, un modello innovativo che guida i Large Vision-Language Model nell'estrazione di relazioni tra oggetti visivi ed entità testuali attraverso un ragionamento passo-passo ottimizzato con l'apprendimento per rinforzo, ottenendo prestazioni all'avanguardia sul benchmark MORE.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong Mo2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Il paper introduce PruneSID, un metodo senza addestramento per la compressione dei token visivi nei modelli visione-linguaggio che, combinando analisi delle componenti semantiche e soppressione non massima, preserva l'essenza delle informazioni riducendo drasticamente il carico computazionale e migliorando le prestazioni rispetto agli approcci esistenti.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Questo paper propone un nuovo framework a due stadi per la generazione di immagini fotorealistiche da schizzi, basato su un autoencoder con attenzione self-attention, un modulo di fusione che preserva le coordinate e un revisore di affinamento spaziale, che supera le tecniche attuali in fedeltà e coerenza semantica su diversi dataset.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs