Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Dit artikel introduceert een concept-gestuurde Bayesiaanse framework voor zero-shot beeldherkenning die, door concepten als latente variabelen te behandelen en uitbijters te filteren via een trainingsvrije likelihood, de beperkingen van heuristische prompt-engineering overwint en state-of-the-art prestaties bereikt.

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

Dit artikel introduceert IMSE, een methode voor testtijdadaptatie die gebruikmaakt van intrinsieke spectrale experts in Vision Transformers door alleen singuliere waarden aan te passen en een diversiteitsmaximalisatieverlies toepast om feature-collapse te voorkomen, waardoor state-of-the-art prestaties worden bereikt met aanzienlijk minder trainbare parameters.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

Deze studie toont aan dat het combineren van menselijke correcties met visueel-taalmodellen en grote taalmodellen de nauwkeurigheid van het genereren van TikZ-code uit handgetekende automata-diagrammen aanzienlijk verbetert, wat waardevolle inzichten biedt voor geautomatiseerde beoordeling en toegankelijker onderwijsmateriaal in de informatica.

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

SGG-R3^{\rm 3}: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Dit paper introduceert SGG-R³, een gestructureerd redeneringskader dat chain-of-thought-gestuurde supervisie en versterkende leer met een groepssequenti-beleid optimalisatie combineert om onbevooroordeelde en complete scene graph generation te realiseren door de uitdagingen van relationele sparsiteit en lange-staartverdelingen aan te pakken.

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Dit paper introduceert EcoG-Bench, een diagnostisch benchmark voor egocentrische co-spraakgrounding dat aantoont dat er een groot prestatiekloof bestaat tussen menselijke en modelprestaties, voornamelijk veroorzaakt door beperkingen in multimodale interfaces die de waarneming van temporale uitlijning tussen spraak en gebaren belemmeren.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

Dit artikel introduceert een apparaat-onafhankelijk raamwerk voor het volgen van chirurgische instrumenten in augmented reality, dat door het fuseren van meerdere sensormodi binnen een dynamische scènegrafiek de robuustheid van de navigatie verbetert ondanks frequente obstructies in de operatiekamer.

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs