cs.CV papers | Gist.Science

RBF Weighted Hyper-Involution for RGB-D Object Detection

Deze paper introduceert een real-time twee-stroom RGB-D objectdetectiemodel dat dynamische RBF-gewogen hyper-involutie en een trainbare fuselaag gebruikt om de uitdagingen bij het simultaan verwerken van diepte- en kleurbeelden op te lossen en zo state-of-the-art prestaties te behalen op de NYU Depth V2-benchmarks.

Mehfuz A Rahman, Khushal Das, Jiju Poovvancheri, Neil London, Dong Chen2026-03-09💻 cs

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Deze paper introduceert een pose-bewust in-context visueel leersysteem (PA-ICVL) voor Vision-Language Models dat de detectie van semantische structurele hallucinaties in cartoon-afbeeldingen aanzienlijk verbetert door naast RGB-beelden ook pose-informatie te gebruiken.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

Dit paper introduceert Fuse4Seg, een nieuw raamwerk dat multi-modale medische beeldfusie herformuleert als een bi-niveau optimalisatieprobleem dat wordt geleid door semantische gradiënten van downstream segmentatie, waardoor kritieke tumorgrenzen behouden blijven en de prestaties van bestaande methoden worden overtroffen terwijl de klinische interpreteerbaarheid wordt gewaarborgd.

Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su2026-03-09💻 cs

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

Het artikel introduceert PACE, een methode die parameter-efficiënt fine-tuning combineert met consistentieregulering om de generalisatie van modellen te verbeteren door gradiëntnormen te verkleinen en kennis uit vooraf getrainde modellen te behouden.

Yao Ni, Shan Zhang, Piotr Koniusz2026-03-09🤖 cs.LG

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

FALCON is een zelftoezichtend voortrainingsmodel dat objectgerichte maskering en toekomstige reconstructie combineert om de prestaties van UAV-actieherkenning op ruwe RGB-beelden te verbeteren door de aandacht te richten op relevante objecten in plaats van rommelige achtergronden.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

AuthFace is een nieuw raamwerk dat authentieke blind gezichtsherstel bereikt door een op gezichten gerichte generatieve diffusielaag te ontwikkelen via een met fotografen begeleid fijnstelfase op een dataset van 8K-beelden, waardoor onjuiste generaties worden voorkomen en de details van gezichten aanzienlijk worden verbeterd.

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

An Efficient Self-supervised Seismic Data Reconstruction Method Based on Self-Consistency Learning

Deze studie presenteert een efficiënte zelftoezichtsmethode voor het reconstrueren van onregelmatige seismische data, die gebruikmaakt van een lichtgewicht netwerk en zelfconsistentieleren zonder extra datasets, waardoor stabiele en hoogwaardige resultaten worden bereikt voor complexe aardkundige exploratie.

Mingwei Wang, Junheng Peng, Yingtian Liu, Yong Li2026-03-09🤖 cs.LG

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

PPLLaVA is een nieuw model dat de rekenkundige inefficiëntie van video-LLM's oplost door middel van prompt-gestuurde tokencompressie, waardoor het zowel de doorvoersnelheid aanzienlijk verbetert als state-of-the-art prestaties behaalt op diverse video-vaardigheden.

Shangkun Sun, Ruyang Liu, Haoran Tang, Yixiao Ge, Haibo Lu, Jiankun Yang, Chen Li2026-03-09💻 cs

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

Dit artikel introduceert Ditto, een diffusion-gebaseerd framework voor het real-time genereren van controleerbare praatkoppen met fijne expressies en lage vertraging, door middel van een geoptimaliseerde motion-space diffusiemodel en diverse conditionele signalen.

Tianqi Li, Ruobing Zheng, Minghui Yang + 2 more2026-03-09⚡ eess

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Dit paper introduceert LEO, een efficiënt architectuurontwerp dat een gestructureerde mix van visuele encoders combineert met een lichtgewicht fusiestrategie om multimodale taalmodellen te verbeteren voor diverse visuele taken en domeinen zoals autonoom rijden.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

FeatureGS introduceert een nieuwe geometrische verliesfunctie op basis van eigenwaarde-afgeleide 3D-vormkenmerken in 3D Gaussian Splatting, wat leidt tot een aanzienlijke verbetering in geometrische nauwkeurigheid, een drastische reductie van het aantal Gaussians en onderdrukking van artefacten, terwijl de fotometrische renderkwaliteit behouden blijft.

Miriam Jäger, Markus Hillemann, Boris Jutzi2026-03-09💻 cs

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

Deze paper introduceert PoI, een framework dat de prestaties van Scene Coordinate Regression verbetert door nieuwe weergaven te genereren met 3DGS en diffusion-modellen, en vervolgens onbetrouwbare pixels te filteren op basis van reprojectiefouten om betrouwbare 3D-supervisie te waarborgen.

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Deze survey biedt een gestructureerd overzicht van hoe grote multimodale taalmodellen het wetenschappelijke proces transformeren door onderzoekers te ondersteunen bij literatuuronderzoek, het genereren van ideeën, experimenten, contentcreatie en evaluatie, terwijl het ook de methoden, beperkingen en ethische risico's van deze AI-gestuurde ontdekkingen belicht.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Escaping The Big Data Paradigm in Self-Supervised Representation Learning

Dit paper introduceert SCOTT en MIM-JEPA, een methode die Vision Transformers in staat stelt om zonder grote datasets of rekenkracht robuuste representaties te leren, waardoor de afhankelijkheid van 'big data' in het zelftoezichtende leren voor visie wordt doorbroken.

Carlos Vélez García, Miguel Cazorla, Jorge Pomares2026-03-09💻 cs

NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

In dit paper wordt NAMI voorgesteld, een efficiënt beeldgeneratiemodel dat via een bruggeleidde progressieve rectified flow-architectuur de inferentietijd voor 1024-resolutie beelden met 64% verlaagt terwijl de beeldkwaliteit behouden blijft.

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin2026-03-09💻 cs

ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement

Het artikel introduceert ECLARE, een efficiënte zelflerende super-resolutiemethode die anisotrope resolutieverbetering in klinische 2D-MR-beelden mogelijk maakt door slice-profielen te schatten en domeinverschuiving te voorkomen zonder externe trainingsdata.

Samuel W. Remedios, Shuwen Wei, Shuo Han, Jinwei Zhang, Aaron Carass, Kurt G. Schilling, Dzung L. Pham, Jerry L. Prince, Blake E. Dewey2026-03-09💻 cs

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

Dit artikel introduceert EarthScape, een multimodaal dataset en reproduceerbaar pipeline voor kunstmatige intelligentie die digitale hoogtemodellen, luchtfoto's en hydrologische data integreert om de arbeidsintensieve workflow voor het maken van oppervlakkige geologische kaarten te stroomlijnen en te schalen.

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Dit artikel introduceert een reeks tests op basis van psychofysische metingen van laag-niveau visie om bestaande beeld- en videokwaliteitsmetrieken te evalueren op hun vermogen om aspecten zoals contrastgevoeligheid en contrastmaskering te modelleren, en toont aan dat deze tests eigenschappen blootleggen die met standaardprotocollen vaak onopgemerkt blijven.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

In dit paper presenteren de auteurs FindAnything, een efficiënt open-wereld mapping-framework dat visueel-taalinformatie op objectniveau integreert in volumetrische submaps, waardoor robots real-time semantische en geometrische kaarten kunnen bouwen van grote, onbekende omgevingen met beperkte rekenkracht.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection

GenCLIP is een nieuw raamwerk voor zero-shot anomaliedetectie dat de generalisatie en stabiliteit verbetert door middel van multi-layer prompting, een dual-branch inferentiestrategie en een adaptief mechanisme voor het filteren van tekstprompten.

Donghyeong Kim, Chaewon Park, Suhwan Cho + 4 more2026-03-09💻 cs

← Vorige Volgende →