cs.CV papers | Gist.Science

Goldilocks Test Sets for Face Verification

De auteurs introduceren drie uitdagende testsets genaamd Hadrian, Eclipse en ND-Twins om zwakke punten in bestaande gezichtsherkenningmodellen te onthullen door te focussen op variaties in gezichtskenmerken en op elkaar lijkende personen, zonder de beeldkwaliteit kunstmatig te verlagen.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Dit paper identificeert en analyseert een 'corruptiestadium' tijdens het few-shot fine-tunen van diffusiemodellen, waarbij beeldkwaliteit tijdelijk verslechtert door een versmalde leerverdeling, en lost dit op door Bayesiaanse neurale netwerken toe te passen om de distributie te verbreden en zo de beeldkwaliteit, diversiteit en trouw te verbeteren zonder extra inferentiekosten.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

RDM: Recurrent Diffusion Model for Human Motion Generation

Dit paper introduceert RDM, een recurrente diffusiemodel dat Normalizing Flows gebruikt om menselijke bewegingen efficiënt en langdurig te genereren op basis van tekst, zonder de hoge rekenkosten van volledige denoising-stappen.

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito2026-03-10💻 cs

Improving Visual Object Tracking through Visual Prompting

Dit paper introduceert PiVOT, een nieuwe visuele prompting-methode voor generiek objecttracking die een voorgeïmplementerd fundamenteel model (CLIP) gebruikt om online visuele prompts te genereren en te verfijnen, waardoor het tracker-model beter in staat is om storende objecten te onderdrukken en de prestaties te verbeteren.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-10💻 cs

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

Dit artikel introduceert de Pose Prior Learner (PPL), een zelftoezichtende methode die een generiek houdingsvoorkennis voor objectcategorieën leert via een hiërarchisch geheugen van prototypische houdingen, waardoor de schatting van houdingen, zelfs bij occlusie, aanzienlijk wordt verbeterd zonder extra menselijke annotaties.

Ziyu Wang, Shuangpeng Han, Mengmi Zhang2026-03-10💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

ExpGest is een innovatief diffusion-model dat door het synchroniseren van tekst- en audio-informatie expressieve, natuurlijke en emotioneel gecontroleerde full-body gebaren genereert, waarmee het de beperkingen van bestaande methoden die zich uitsluitend op audio en het bovenlichaam richten, overwint.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Deze studie introduceert een neurosymbolisch systeem dat medische beelden reconstrueert via visuele primitieven om transparante en nauwkeurigere diagnoses van histologische afwijkingen te leveren dan traditionele deep learning-architecturen.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

Deze paper introduceert een raamwerk voor diffusiemodellen dat de generatiedynamiek aanpast aan de complexiteit van elk individueel voorbeeld, waardoor het aantal benodigde steekproefstappen wordt verminderd zonder in te leveren op de kwaliteit.

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

Dit artikel introduceert Prithvi-EO-2.0, een geavanceerd open-source fundamenteel model voor aardobservatie dat is getraind op 4,2 miljoen tijdreeksstalen en aanzienlijk beter presteert dan eerdere modellen bij diverse ruimtelijke taken, van landdekkingsmapping tot ecosysteemmonitoring.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Het paper introduceert iLLaVA, een methode die Large Multimodal Models versnelt door visuele redundantie al bij de image encoder te reduceren en nuttige informatie van verwijderde tokens te recyclen, wat leidt tot aanzienlijke snelheidswinst en hogere efficiëntie zonder in te leveren op prestaties.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Dit paper introduceert HarmonicEval, een referentievrije, meervoudige evaluatiemethode voor Vision-Language Models die criteria-specifieke scores combineert, en presenteert het MMHE-benchmark met 18.000 menselijke beoordelingen om de prestaties van dergelijke methoden in multi-task scenario's te valideren.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

LangSurf introduceert een taal-geëmbedeerd oppervlakveld dat door middel van geometrische supervisie en een hiërarchisch contextbewust module de 3D-taalfeld nauwkeurig op objectoppervlakken uitlijnt, waardoor superieure open-vocabulaire segmentatie en bewerking in 3D-scènes mogelijk wordt.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Deze paper introduceert een methode die voorgeprende vision-language modellen gebruikt om symbolische wereldmodellen te leren uit korte demonstraties, waardoor robots in staat zijn om via planning complexe, lange-horizon taken in nieuwe omgevingen en met nieuwe doelen op te lossen.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Deze paper introduceert efficiënte data-reductiestrategieën voor semi-supervised adversarial training door middel van latent clustering, waardoor de benodigde hoeveelheid ongelabelde data en rekentijd aanzienlijk worden verminderd zonder in te leveren op de modelrobustheid.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Dit artikel introduceert een probleemonafhankelijke MAP-gebaseerde geleide term-schatting voor diffusiemodellen die, door een vooraf getrainde score te combineren met een nieuwe geleide term, superieure resultaten behaalt bij inverse problemen zoals superresolutie en inpainting door beter de intrinsieke eigenschappen van de data vast te leggen.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

Dit artikel introduceert Generative Predictive Control (GPC), een leerframework dat een generatieve diffusiebeleid combineert met een voorspellend wereldmodel om online planning te verbeteren, wat resulteert in superieure prestaties ten opzichte van gedragskloning bij diverse robotmanipulatietaken in zowel simulatie als de echte wereld.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

Dit paper introduceert VL-Nav, een neuro-symbolisch systeem dat neurale redenering combineert met symbolische begeleiding om robots in staat te stellen complexe, abstracte instructies te volgen en effectief te navigeren in onbekende, grote omgevingen, wat resulteert in hoge succespercentages in zowel simulaties als real-world experimenten.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

Dit paper introduceert Prompt-SID, een zelftoezichtend framework voor het verwijderen van ruis uit een enkele afbeelding dat structurele details behoudt door middel van een prompt-leringsbenadering met latent diffusion en een transformer-architectuur.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

LaVCa: LLM-assisted Visual Cortex Captioning

Het artikel introduceert LaVCa, een data-gedreven methode die grote taalmodellen gebruikt om gedetailleerde natuurlijke taalbeschrijvingen te genereren voor de selectiviteit van neurale populaties in de visuele cortex, waarmee de beperkingen van bestaande diepe-neurale-netwerkmodellen worden overwonnen en fijnmazigere inzichten in menselijke visuele representaties worden verkregen.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Dit onderzoek presenteert een hoogpresterend algoritme dat T1-, T2-, T1ce- en FLAIR-MRI-beelden fuseert via UNET-segmentatie en ResNet50-classificatie om gliomen met een nauwkeurigheid van 99,25% te onderscheiden in subklassen zoals necrotische kern, oedeem en versterkende tumor.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

← Vorige Volgende →