cs.CV papers | Gist.Science

Training-free Temporal Object Tracking in Surgical Videos

Deze paper introduceert een trainingsvrije methode voor tijdelijke objecttracking in laparoscopische chirurgievideo's die vooraf getrainde tekst-naar-beelddiffusiemodellen gebruikt om kritieke anatomische structuren en instrumenten nauwkeurig te lokaliseren en te volgen zonder kostbare pixel-annotaties.

Subhadeep Koley, Abdolrahim Kadkhodamohammadi, Santiago Barbarisi, Danail Stoyanov, Imanol Luengo2026-03-10💻 cs

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver is een trainingsvrij en modelonafhankelijk serversysteem dat de latentie van tekst-naar-audio diffusiemodellen aanzienlijk verlaagt door het generatieproces warm te starten op basis van semantisch vergelijkbare, in cache opgeslagen audiofragmenten, zonder in te leveren op de perceptuele kwaliteit.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai2026-03-10💻 cs

Toward Unified Multimodal Representation Learning for Autonomous Driving

Dit paper introduceert het Contrastive Tensor Pre-training (CTP)-framework, dat door het vervangen van paarwijze vergelijkingen door een gezamenlijke tensorbenadering, een consistente en verenigde uitlijning van tekst, afbeeldingen en puntwolkdata realiseert voor verbeterde autonome rijprestaties.

Ximeng Tao, Dimitar Filev, Gaurav Pandey2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Dit paper introduceert VLM-SubtleBench, een nieuw meetinstrument dat VLM's evalueert op hun vermogen om subtiele verschillen in diverse domeinen zoals industrie en medische beeldvorming te onderscheiden, en blootlegt dat er nog een aanzienlijke kloof bestaat tussen model- en menselijke prestaties.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Structure and Progress Aware Diffusion for Medical Image Segmentation

Deze paper introduceert SPAD, een structuur- en voortgangsgevoelige diffusiemodel voor medische beeldsegmentatie dat via een progressieve scheduler eerst stabiele morfologische structuren leert en vervolgens pas overgaat op het verfijnen van onzeker grenzen.

Siyuan Song, Guyue Hu, Chenglong Li, Dengdi Sun, Zhe Jin, Jin Tang2026-03-10💻 cs

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

Dit artikel presenteert beeldsegmentatie als een visueel testkader voor coalitieformatie in hedonische spellen, waarbij wordt onderzocht hoe een granulariteitsparameter de evenwichtsfragmentatie beïnvloedt en de link legt tussen mechanismeontwerp en de structuur van evenwichten.

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Dit artikel introduceert MINT, een raamwerk dat ruimtelijke transcriptomics-supervisie integreert in voorgeprogrammeerde pathologie-Vision Transformers om de moleculaire toestand van weefsel beter vast te leggen en zo de prestaties voor zowel genexpressievoorspelling als algemene pathologietaken te verbeteren.

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang2026-03-10💻 cs

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

Dit artikel introduceert E²OAL, een unified en detector-vrij raamwerk voor open-set actief leren dat gelabelde onbekende klassen effectief benut via label-gestuurde clustering en Dirichlet-gecalibreerde hulpkoppen om zowel de nauwkeurigheid als de efficiëntie te verbeteren zonder de hoge trainingskosten van bestaande methoden.

Chen-Chen Zong, Yu-Qi Chi, Xie-Yang Wang, Yan Cui, Sheng-Jun Huang2026-03-10🤖 cs.LG

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Dit artikel introduceert een concept-gestuurde Bayesiaanse framework voor zero-shot beeldherkenning die, door concepten als latente variabelen te behandelen en uitbijters te filteren via een trainingsvrije likelihood, de beperkingen van heuristische prompt-engineering overwint en state-of-the-art prestaties bereikt.

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Geometric Transformation-Embedded Mamba for Learned Video Compression

Dit artikel introduceert GTEM-LVC, een gestroomlijnd framework voor geleerde videocompressie dat een cascaded Mamba-module met ingebouwde geometrische transformaties en een lokale verfijningsnetwerk combineert om prestaties te verbeteren zonder complexe bewegingsschatting.

Hao Wei, Yanhui Zhou, Chenyang Ge2026-03-10💻 cs

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

Dit artikel presenteert een nieuw unmixing-gebaseerd raamwerk voor de super-resolutie van niet-geregistreerde hyperspectrale beelden, dat spectrale en ruimtelijke informatie ontkoppelt en een verfijnd aggregatiemodule gebruikt om state-of-the-art resultaten te bereiken.

Yingkai Zhang, Tao Zhang, Jing Nie, Ying Fu2026-03-10💻 cs

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

Dit paper introduceert RLPR, een robuust framework voor plaatsherkenning dat radar- en LiDAR-data via een tweestaps asymmetrische kruismodale uitlijning combineert om nauwkeurige localisatie in alle weersomstandigheden mogelijk te maken, zelfs zonder bestaande radar-kaarten.

Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Guangming Xiong2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

Dit artikel introduceert IMSE, een methode voor testtijdadaptatie die gebruikmaakt van intrinsieke spectrale experts in Vision Transformers door alleen singuliere waarden aan te passen en een diversiteitsmaximalisatieverlies toepast om feature-collapse te voorkomen, waardoor state-of-the-art prestaties worden bereikt met aanzienlijk minder trainbare parameters.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

Deze paper introduceert een hybride Vision Transformer-methode met 2D-positiesche codering en een coverage attention-decoder voor het herkennen van wiskundige expressies, die op de IM2LATEX-100K-dataset een BLEU-score van 89,94 bereikt en daarmee de huidige state-of-the-art-methoden overtreft.

Anh Duy Le, Van Linh Pham, Vinh Loi Ly, Nam Quan Nguyen, Huu Thang Nguyen, Tuan Anh Tran2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

Deze studie toont aan dat het combineren van menselijke correcties met visueel-taalmodellen en grote taalmodellen de nauwkeurigheid van het genereren van TikZ-code uit handgetekende automata-diagrammen aanzienlijk verbetert, wat waardevolle inzichten biedt voor geautomatiseerde beoordeling en toegankelijker onderwijsmateriaal in de informatica.

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

$L^3$ :Scene-agnostic Visual Localization in the Wild

Dit paper introduceert $L^3$ , een nieuw raamwerk voor kaartloze visuele lokalisatie dat online 3D-reconstructie gebruikt om nauwkeurige positiebepaling in willekeurige omgevingen mogelijk te maken zonder voorafgaande offline verwerking of opslag van scenescenario's.

Yu Zhang, Muhua Zhu, Yifei Xue, Tie Ji, Yizhen Lao2026-03-10💻 cs

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

Dit paper introduceert VisualAD, een taalvrij zero-shot anomaliedetectiemodel dat puur op Vision Transformers vertrouwt door middel van leerbare tokens en speciale modules om state-of-the-art prestaties te bereiken zonder de complexiteit van vision-language modellen.

Yanning Hou, Peiyuan Li, Zirui Liu, Yitong Wang, Yanran Ruan, Jianfeng Qiu, Ke Xu2026-03-10💻 cs

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Dit paper introduceert SGG-R³, een gestructureerd redeneringskader dat chain-of-thought-gestuurde supervisie en versterkende leer met een groepssequenti-beleid optimalisatie combineert om onbevooroordeelde en complete scene graph generation te realiseren door de uitdagingen van relationele sparsiteit en lange-staartverdelingen aan te pakken.

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Dit paper introduceert EcoG-Bench, een diagnostisch benchmark voor egocentrische co-spraakgrounding dat aantoont dat er een groot prestatiekloof bestaat tussen menselijke en modelprestaties, voornamelijk veroorzaakt door beperkingen in multimodale interfaces die de waarneming van temporale uitlijning tussen spraak en gebaren belemmeren.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

Dit artikel introduceert een apparaat-onafhankelijk raamwerk voor het volgen van chirurgische instrumenten in augmented reality, dat door het fuseren van meerdere sensormodi binnen een dynamische scènegrafiek de robuustheid van de navigatie verbetert ondanks frequente obstructies in de operatiekamer.

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

← Vorige Volgende →

cs.CV