cs.CV papers | Gist.Science

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

Dit artikel introduceert EarthScape, een multimodaal dataset en reproduceerbaar pipeline voor kunstmatige intelligentie die digitale hoogtemodellen, luchtfoto's en hydrologische data integreert om de arbeidsintensieve workflow voor het maken van oppervlakkige geologische kaarten te stroomlijnen en te schalen.

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Dit artikel introduceert een reeks tests op basis van psychofysische metingen van laag-niveau visie om bestaande beeld- en videokwaliteitsmetrieken te evalueren op hun vermogen om aspecten zoals contrastgevoeligheid en contrastmaskering te modelleren, en toont aan dat deze tests eigenschappen blootleggen die met standaardprotocollen vaak onopgemerkt blijven.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

In dit paper presenteren de auteurs FindAnything, een efficiënt open-wereld mapping-framework dat visueel-taalinformatie op objectniveau integreert in volumetrische submaps, waardoor robots real-time semantische en geometrische kaarten kunnen bouwen van grote, onbekende omgevingen met beperkte rekenkracht.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection

GenCLIP is een nieuw raamwerk voor zero-shot anomaliedetectie dat de generalisatie en stabiliteit verbetert door middel van multi-layer prompting, een dual-branch inferentiestrategie en een adaptief mechanisme voor het filteren van tekstprompten.

Donghyeong Kim, Chaewon Park, Suhwan Cho + 4 more2026-03-09💻 cs

Maximizing Asynchronicity in Event-based Neural Networks

Dit artikel introduceert EVA, een nieuw asynchroon tot synchroon (A2S) framework dat door inspiratie uit taalmodellen event-gebaseerde visie verbetert en state-of-the-art prestaties behaalt op zowel herkennings- als detectietaken.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation

Deze paper introduceert BusterX, een MLLM-basismodel met RL-training dat AI-generatievideo's detecteert via visuele redenering in plaats van directe classificatie, ondersteund door het nieuwe GenBuster-200K-dataset en de GenBuster-Bench-benchmark voor een robuuste evaluatie van detectie en uitlegkwaliteit.

Haiquan Wen, Yiwei He, Zhenglin Huang + 7 more2026-03-09💻 cs

DVD-Quant: Data-free Video Diffusion Transformers Quantization

Deze paper introduceert DVD-Quant, een data-vrij kwantisatiekader voor Video Diffusion Transformers dat door middel van innovatieve technieken zoals BGR, ARQ en δ-GBS een 2x snelheidswinst realiseert en W4A4-kwantisatie mogelijk maakt zonder in te leveren op de video-kwaliteit.

Zhiteng Li, Hanxuan Li, Junyi Wu, Kai Liu, Haotong Qin, Linghe Kong, Guihai Chen, Yulun Zhang, Xiaokang Yang2026-03-09💻 cs

Alchemist: Turning Public Text-to-Image Data into Generative Gold

Dit paper introduceert Alchemist, een compacte en effectieve dataset voor supervised fine-tuning die is samengesteld met behulp van een generatief model als schatting voor hoogwaardige trainingsdata, en die de kwaliteit van openbare tekst-naar-beeldmodellen aanzienlijk verbetert zonder hun diversiteit te verliezen.

Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin2026-03-09💻 cs

Instance Data Condensation for Image Super-Resolution

Dit artikel introduceert een nieuw kaders voor instantiegegevenscondensatie (IDC) dat specifiek is ontworpen voor beeldsuperresolutie en dat, door gebruik te maken van willekeurige lokale Fourier-kenmerkextractie en multi-niveau kenmerkverdelingmatching, een synthetische dataset van slechts 10% van de oorspronkelijke DIV2K-dataset genereert die vergelijkbare prestaties en trainingsstabiliteit bereikt als het volledige dataset.

Tianhao Peng, Ho Man Kwan, Yuxuan Jiang, Ge Gao, Fan Zhang, Xiaozhong Xu, Shan Liu, David Bull2026-03-09💻 cs

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

Dit paper introduceert VisioMath, een benchmark van 1.800 wiskundeproblemen met visueel vergelijkbare diagrammen, om de beperkingen van Large Multimodal Models in fijnmazig redeneren te analyseren en strategieën voor verbeterde beeld-tekstuitlijning te presenteren.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

VisualPrompter: Semantic-Aware Prompt Optimization with Visual Feedback for Text-to-Image Synthesis

VisualPrompter is een trainingsvrije framework dat de semantische uitlijning tussen gebruikersprompts en gegenereerde afbeeldingen verbetert door automatisch ontbrekende concepten te identificeren en prompts op atomair niveau te optimaliseren met visuele feedback.

Shiyu Wu, Mingzhen Sun, Weining Wang, Yequan Wang, Jing Liu2026-03-09💻 cs

SPoT: Subpixel Placement of Tokens in Vision Transformers

Het paper introduceert SPoT, een innovatieve tokenisatiestrategie voor Vision Transformers die tokens continu binnen afbeeldingen plaatst in plaats van op een raster, waardoor de noodzaak voor een groot aantal tokens wordt verminderd en de prestaties in spaarzame regimes aanzienlijk worden verbeterd.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

Dit paper introduceert SPARC, een raamwerk dat met behulp van een globale TopK-sparsiteitsmechanisme en een kruisreconstructieverlies een gedeelde, semantisch consistente latente ruimte creëert voor concepten over verschillende AI-modellen en -modaliteiten heen, waardoor directe vergelijking en nieuwe toepassingen zoals tekst-gestuurde lokalisatie mogelijk worden.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

Token Bottleneck: One Token to Remember Dynamics

Dit paper introduceert Token Bottleneck (ToBo), een zelftoezichtend leerproces dat dynamische scènes comprimeert tot een compacte token om tijdsafhankelijke visuele representaties te leren voor taken zoals videolabelpropagatie en robotmanipulatie.

Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun2026-03-09💻 cs

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation

Dit paper introduceert NarrLV, het eerste benchmarkkader dat de narratieve expressie van lange video-generatiemodellen systematisch evalueert aan de hand van filmtheoretische principes en een op MLLM gebaseerde meetmethode.

X. Feng, H. Yu, M. Wu, S. Hu, J. Chen, C. Zhu, J. Wu, X. Chu, K. Huang2026-03-09💻 cs

Tomato Multi-Angle Multi-Pose Dataset for Fine-Grained Phenotyping

Deze paper introduceert TomatoMAP, een uitgebreide dataset met 64.464 beelden van tomatenplanten die, aangevuld met handmatige annotaties en gevalideerd door een deep learning-framework, menselijke expertoordelen evenaart voor nauwkeurige en reproduceerbare fijnkorrelige fenotypering.

Yujie Zhang, Sabine Struckmeyer, Andreas Kolb + 1 more2026-03-09💻 cs

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

ExDD is een nieuw kader voor de detectie van oppervlakdefecten dat de beperkingen van traditionele one-class methoden overwint door expliciete modellering van dubbele verdelingen, het genereren van synthetische defecten via latent diffusion en een geavanceerde scoremechanisme, wat resulteert in verbeterde prestaties op industriële datasets.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

Gaussian Set Surface Reconstruction through Per-Gaussian Optimization

Dit paper introduceert GSSR, een methode die de geometrische precisie van 3D Gaussian Splatting verbetert door Gaussians gelijkmatig langs het latente oppervlak te verdelen en hun normaals te aligneren via een combinatie van normalen- en fotometrische consistentie, regularisatie en herinitialisatie.

Zhentao Huang, Di Wu, Zhenbang He, Minglun Gong2026-03-09💻 cs

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Deze paper introduceert een op multimodale grote taalmodellen gebaseerd multi-agent systeem dat de extractie van chemische informatie uit diverse literatuurformaten aanzienlijk verbetert, met een F1-score van 76,27% die de huidige staat van de kunst ver overtreft.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Deze paper introduceert MAP, een trainingsvrije decoderingsmethode die hallucinaties in grote visueel-taalmodellen vermindert door de verborgen toestanden te interpreteren als een 2D-semantische kaart en deze te verwerken via kruisgewijze attentie en logit-fusie om de feitelijke consistentie te verbeteren.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

← Vorige Volgende →