cs.CV papers | Gist.Science

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Het paper introduceert iLLaVA, een methode die Large Multimodal Models versnelt door visuele redundantie al bij de image encoder te reduceren en nuttige informatie van verwijderde tokens te recyclen, wat leidt tot aanzienlijke snelheidswinst en hogere efficiëntie zonder in te leveren op prestaties.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Dit paper introduceert HarmonicEval, een referentievrije, meervoudige evaluatiemethode voor Vision-Language Models die criteria-specifieke scores combineert, en presenteert het MMHE-benchmark met 18.000 menselijke beoordelingen om de prestaties van dergelijke methoden in multi-task scenario's te valideren.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

LangSurf introduceert een taal-geëmbedeerd oppervlakveld dat door middel van geometrische supervisie en een hiërarchisch contextbewust module de 3D-taalfeld nauwkeurig op objectoppervlakken uitlijnt, waardoor superieure open-vocabulaire segmentatie en bewerking in 3D-scènes mogelijk wordt.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Deze paper introduceert een methode die voorgeprende vision-language modellen gebruikt om symbolische wereldmodellen te leren uit korte demonstraties, waardoor robots in staat zijn om via planning complexe, lange-horizon taken in nieuwe omgevingen en met nieuwe doelen op te lossen.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Deze paper introduceert efficiënte data-reductiestrategieën voor semi-supervised adversarial training door middel van latent clustering, waardoor de benodigde hoeveelheid ongelabelde data en rekentijd aanzienlijk worden verminderd zonder in te leveren op de modelrobustheid.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Dit artikel introduceert een probleemonafhankelijke MAP-gebaseerde geleide term-schatting voor diffusiemodellen die, door een vooraf getrainde score te combineren met een nieuwe geleide term, superieure resultaten behaalt bij inverse problemen zoals superresolutie en inpainting door beter de intrinsieke eigenschappen van de data vast te leggen.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

Dit artikel introduceert Generative Predictive Control (GPC), een leerframework dat een generatieve diffusiebeleid combineert met een voorspellend wereldmodel om online planning te verbeteren, wat resulteert in superieure prestaties ten opzichte van gedragskloning bij diverse robotmanipulatietaken in zowel simulatie als de echte wereld.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

Dit paper introduceert VL-Nav, een neuro-symbolisch systeem dat neurale redenering combineert met symbolische begeleiding om robots in staat te stellen complexe, abstracte instructies te volgen en effectief te navigeren in onbekende, grote omgevingen, wat resulteert in hoge succespercentages in zowel simulaties als real-world experimenten.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

Dit paper introduceert Prompt-SID, een zelftoezichtend framework voor het verwijderen van ruis uit een enkele afbeelding dat structurele details behoudt door middel van een prompt-leringsbenadering met latent diffusion en een transformer-architectuur.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

LaVCa: LLM-assisted Visual Cortex Captioning

Het artikel introduceert LaVCa, een data-gedreven methode die grote taalmodellen gebruikt om gedetailleerde natuurlijke taalbeschrijvingen te genereren voor de selectiviteit van neurale populaties in de visuele cortex, waarmee de beperkingen van bestaande diepe-neurale-netwerkmodellen worden overwonnen en fijnmazigere inzichten in menselijke visuele representaties worden verkregen.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Dit onderzoek presenteert een hoogpresterend algoritme dat T1-, T2-, T1ce- en FLAIR-MRI-beelden fuseert via UNET-segmentatie en ResNet50-classificatie om gliomen met een nauwkeurigheid van 99,25% te onderscheiden in subklassen zoals necrotische kern, oedeem en versterkende tumor.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Dit paper introduceert LOOP, een nieuwe versterkingsleermethode voor het fijnafstemmen van tekst-naar-beeld diffusiemodellen die de steekproefefficiëntie en stabiliteit van PPO combineert met de variansiereductietechnieken van REINFORCE om een betere balans tussen efficiëntie en prestaties te bereiken.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Deze studie introduceert een schaalbaar en robuust transformer-model op tetraëdrische meshes met anatomische landmarks, dat de diagnose van de ziekte van Alzheimer en de voorspelling van amyloïde positiviteit bij personen met een gemiddeld risico verbetert zonder dure PET-scans.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

Het artikel introduceert Snapmoji, een systeem dat met behulp van een nieuwe techniek genaamd Gaussian Domain Adaptation (GDA) direct aanpasbare 3D-avataars genereert die in een dubbele stijl worden gestileerd en op mobiele apparaten soepel kunnen worden geanimeerd.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Dit paper introduceert SceneEval, een evaluatiekader met fijnmazige metrics voor expliciete en impliciete eisen, en het bijbehorende SceneEval-500-benchmarks om de semantische coherentie en plausibiliteit van door tekst gestuurde 3D-interieurgeneratie systematisch te beoordelen.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Deze paper introduceert een methode om de discriminatieve kracht van backward-compatible learning te verbeteren door de strikte aligneringsbeperkingen te versoepelen via het introduceren van perturbaties in de oude feature-prototypen, wat leidt tot twee nieuwe benaderingen (NDPP en ODPP) die superieure resultaten behalen op bestaande benchmarks.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Dit artikel introduceert een nieuwe methode voor het reconstrueren van twee handen uit één afbeelding die heterogene 2D-priors verenigt en een penetratievrije diffusiemodel gebruikt om nauwkeurige, fysiek plausibele interacties te genereren, zelfs bij ernstige occlusie.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

Point-based Instance Completion with Scene Constraints

Deze paper introduceert een nieuw model voor het completeren van objecten in een scène dat scene-constraints integreert via cross-attention, en presenteert het nieuwe ScanWCF-dataset om de kwaliteit en plausibiliteit van dergelijke completering te verbeteren.

Wesley Khademi, Li Fuxin2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

Deze paper introduceert LEL, een nieuw ensemble-leerframework dat Lipschitz-continuïteitsbeperkingen toepast op Transformer-mechanismen om de stabiliteit, nauwkeurigheid en robuustheid van EEG-gebaseerde emotieherkenning binnen individuele gebruikers te verbeteren.

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

Dit artikel introduceert O-VIB, een taakgerichte semantische compressiemethode die geïnspireerd is op de ruimtelijke cognitie van zoogdieren en gebruikmaakt van orthogonale variatie-informatie-flessenhals-codering om visuele lokalisatie in GPS-beperkte stedelijke omgevingen te optimaliseren onder strikte bandbreedte- en rekenkrachtwensen.

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

← Vorige Volgende →