cs.CV papers | Gist.Science

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

Dit paper introduceert SAIL, een nieuwe aanpak voor zwak-toezicht op dichte videobeschrijvingen die semantisch bewuste maskers creëert via kruismodale uitlijning en LLM-gegenereerde synthetische captions, waardoor zowel de lokale precisie als de beschrijvingskwaliteit aanzienlijk worden verbeterd.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

Dit paper introduceert CompACT, een compacte discrete tokenizer die waarnemingen comprimeert tot slechts 8 tokens, waardoor wereldmodellen voor beslissingsplanning aanzienlijk sneller en efficiënter worden zonder in te leveren op prestaties.

Dongwon Kim, Gawon Seo, Jinsung Lee + 2 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

Dit paper introduceert NaiLIA, een multimodale methode voor het terugvinden van nagelontwerpen die complexe intentbeschrijvingen en kleurenpaletten effectiever verwerkt dan bestaande modellen, getest op een nieuw, omvangrijk dataset met diverse culturele achtergronden.

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs

RealWonder: Real-Time Physical Action-Conditioned Video Generation

RealWonder is een real-time systeem dat fysieke acties omzet in video's door ze via een fysicasimulatie te vertalen naar visuele representaties, waardoor interactieve simulaties van krachten, robotacties en cameracontrole op diverse objecten mogelijk worden.

Wei Liu, Ziyu Chen, Zizhang Li + 3 more2026-03-06🤖 cs.AI

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

Dit paper introduceert de Longest Stable Prefix (LSP)-scheduler, een trainingsvrije methode die de inferentie van Diffusie Taalmodellen tot 3,4x versnelt door fragmentatie van de KV-cache te elimineren en coherent, monolithisch voorvoegsel-commitment te realiseren, wat leidt tot snellere en kwalitatief gelijkwaardige tekstgeneratie.

Pengxiang Li, Joey Tsai, Hongwei Xue + 2 more2026-03-06💻 cs

EdgeDAM: Real-time Object Tracking for Mobile Devices

EdgeDAM is een lichtgewicht, real-time objecttracking-framework voor mobiele apparaten dat nauwkeurige en robuuste prestaties onder moeilijke omstandigheden bereikt door een innovatieve dubbel-bufferdistractor-bewust geheugenmechanisme en een op vertrouwen gebaseerde schakelstrategie te combineren.

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam + 2 more2026-03-06💻 cs

HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

Deze studie introduceert HALP, een methode die hallucinaties in vision-language modellen succesvol detecteert vóór de tekstgeneratie door interne representaties te analyseren, waardoor kostbare en onrechtstijdige ingrepen na het genereren van tokens kunnen worden vermeden.

Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun + 1 more2026-03-06💻 cs

Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields

Dit onderzoek toont aan dat Neural Radiance Fields (NeRFs) effectief kunnen worden ingezet om 3D-scènes van gaspluimen in LWIR-hyperspectrale beelden te reconstrueren en gasdetectie te verbeteren, zelfs met een beperkt aantal trainingsbeelden.

Scout Jarman, Zigfried Hampel-Arias, Adra Carr + 1 more2026-03-06💻 cs

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Deze paper introduceert MM-Lifelong, een dataset van 181 uur met footage over dag-, week- en maandperiodes, en stelt ReMA voor, een recursieve multimodale agent die de bestaande beperkingen in werkgeheugen en globale lokalisatie overwint voor beter levenslang begrip.

Guo Chen, Lidong Lu, Yicheng Liu + 17 more2026-03-06💻 cs

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

Dit paper introduceert CalibAtt, een trainingsvrije methode die de tekst-naar-video-generatie versnelt door gebruik te maken van een kalibratiepass om stabiele, verwaarloosbare aandachtspatronen te identificeren en te overslaan, waardoor een snelheidswinst van maximaal 1,58x wordt bereikt zonder in te leveren op kwaliteit.

Shai Yehezkel, Shahar Yadin, Noam Elata + 2 more2026-03-06💻 cs

FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning

FaceCam is een systeem dat monokulaire portretvideo's omzet in video's met aanpasbare camerabewegingen door een schaalbewuste voorstelling te gebruiken die geometrische vervormingen voorkomt en een superieure controle, visuele kwaliteit en behoud van identiteit en beweging garandeert.

Weijie Lyu, Ming-Hsuan Yang, Zhixin Shu2026-03-06💻 cs

Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

Deze paper introduceert een real-time, transformer-gebaseerde inpainting-methode voor 3D-streaming in multi-camera setups, die ontbrekende texturen consistent en gedetailleerd vult door middel van spatio-temporele embeddings en een adaptieve patch-selectiestrategie.

Leif Van Holland, Domenic Zingsheim, Mana Takhsha + 4 more2026-03-06💻 cs

Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference)

Deze paper introduceert een nieuwe matrix-encoderingsmethode genaamd Volley Revolver die het mogelijk maakt om privacy-bewuste neurale netwerken voor inferentie uit te voeren met homomorfische encryptie, waarbij een CNN voor handgeschreven cijferclassificatie op het MNIST-dataset in ongeveer 287 seconden tien waarschijnlijkheden berekent voor 32 versleutelde afbeeldingen.

John Chiang2026-03-05💻 cs

Schrödinger's Camera: First Steps Towards a Quantum-Based Privacy Preserving Camera

Dit paper introduceert een privacybehoudend camerasysteem dat beelden opslaat in kwantumtoestanden en gebruikmaakt van deep reinforcement learning om de afweging tussen privacy en bruikbaarheid te optimaliseren voordat de beelden worden gemeten.

Hannah Kirkland, Sanjeev J. Koppal2026-03-05⚛️ quant-ph

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

GeoTop is een wiskundig onderbouwd raamwerk dat Topologische Data-analyse en Lipschitz-Killing-krommingen verenigt om de ambiguïteit tussen goed- en kwaadaardige structuren in diagnostische beeldvorming op te lossen door topologische equivalentie te doorbreken met geometrische differentiatoren, wat leidt tot verbeterde classificatie, interpretatie en efficiëntie.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Dit paper introduceert een nieuwe methode voor open-vocabulaire geïntegreerde segmentatie van gecamoufleerde objecten door gebruik te maken van text-naar-beeld diffusiemodellen om multi-schaal tekstuele en visuele kenmerken te combineren, waardoor objecten die zich vermommen in hun omgeving toch effectief kunnen worden geïdentificeerd.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

In dit paper wordt Export3D voorgesteld, een methode voor één-op-een 3D-bewuste portretanimatie die gezichtsuitdrukkingen en cameraview controleert door een contrastief voortrainingsframework te gebruiken om een uitdrukkingsspecifieke tri-plane te genereren zonder ongewenste uitwisseling van uiterlijke kenmerken bij het overbrengen van uitdrukkingen tussen verschillende gezichten.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Matching

Het paper introduceert FireANTs, een trainingsvrij, GPU-versneld algoritme voor adaptieve Riemanniaanse optimalisatie dat snellere, geheugenefficiëntere en robuustere diffeomorfe beeldmatching biedt dan bestaande methoden, zonder dat specifieke domeintraining vereist is.

Rohit Jena, Pratik Chaudhari, James C. Gee2026-03-05💻 cs

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

Dit paper introduceert Merlin, een 3D vision-language foundation model en dataset die is getraind op meer dan 15.000 abdominale CT-scans en klinische data om geautomatiseerde medische beeldanalyse te verbeteren en superieure prestaties te leveren bij diverse diagnostische en prognostische taken vergeleken met bestaande modellen.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Deze paper introduceert TrashFuzz, een black-box fuzzing-algoritme dat realistische verkeersschendingen veroorzaakt door de plaatsing van alledaagse objecten langs de weg te manipuleren binnen de kaders van wettelijke richtlijnen, zonder gebruik te maken van onnatuurlijke adversarial patches.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

← Vorige Volgende →