cs.CV papers | Gist.Science

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

Het paper introduceert GroundCount, een framework dat Vision-Language-modellen verrijkt met objectdetectie-gebaseerde ruimtelijke grounding om hallucinaties bij het tellen van objecten te verminderen en de nauwkeurigheid aanzienlijk te verbeteren.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

Deze paper introduceert het Color Fidelity Dataset (CFD) en de Color Fidelity Metric (CFM) om de neiging van tekst-naar-beeldmodellen tot overmatige levendigheid te corrigeren, en stelt een trainingsvrije verfijningsmethode (CFR) voor om de kleurauthenticiteit in realistische generaties te verbeteren.

Zhengyao Fang, Zexi Jia, Yijia Zhong, Pengcheng Luo, Jinchao Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-12💻 cs

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

In een interdisciplinair onderzoek tussen computerwetenschappers en kunsthistorici wordt onderzocht hoe Vision Language Models kunststijlen herkennen en blijkt dat hun gebruikte concepten voor 90% relevant zijn en voor 73% semantisch zinvol worden bevonden door experts.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

Het artikel introduceert DynVLA, een autonoom rijmodel dat een nieuwe 'Dynamics CoT'-paradigma hanteert door compacte werelddynamieken te voorspellen via een dynamische tokenizer, wat leidt tot fysiek onderbouwde en nauwkeurigere beslissingen dan bestaande tekstuele of visuele methoden.

Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan2026-03-12💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Het artikel introduceert V2M-Zero, een methode die video naar tijd-gealigneerde muziek vertaalt zonder gekoppelde trainingsdata, door gebruik te maken van binnen-modale gebeurteniskrommen om de gedeelde temporele structuur tussen video en muziek te benutten.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Agentar-Fin-OCR

In dit paper stellen de auteurs Agentar-Fin-OCR voor, een systeem voor het parseren van financiële documenten dat complexe lay-outs en paginagroei overwint door geavanceerde algoritmen te combineren met een nieuw benchmark, FinDocBench, om nauwkeurige, gestructureerde en audit-proof output te genereren.

Siyi Qian, Xiongfei Bai, Bingtao Fu, Yichen Lu, Gaoyang Zhang, Xudong Yang, Peng Zhang2026-03-12💻 cs

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Dit paper introduceert NeFTY, een differentieerbaar fysica-framework dat gebruikmaakt van neurale velden en een strikte numerieke solver om materialen kwantitatief in 3D te reconstrueren op basis van oppervlaktetemperatuurmetingen, waardoor de beperkingen van traditionele thermografie en bestaande PINN-benaderingen voor het detecteren van ondergrondse defecten worden overwonnen.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

LiTo: Surface Light Field Tokenization

Dit paper introduceert LiTo, een nieuwe 3D-latente representatie die objectgeometrie en view-dependent uiterlijk (zoals spiegelreflecties) gezamenlijk modelleert door oppervlakte-lichtveldstokenisatie, waardoor realistische 3D-generatie vanuit een enkele inputafbeelding mogelijk wordt.

Jen-Hao Rick Chang, Xiaoming Zhao, Dorian Chan, Oncel Tuzel2026-03-12🤖 cs.AI

COMIC: Agentic Sketch Comedy Generation

Deze paper introduceert een volledig geautomatiseerd AI-systeem dat korte komediesoaps genereert door middel van een agentenpopulatie die de rollen van een productiestudio nabootst en gebruikmaakt van door LLM-aangedreven critici die zijn getraind op YouTube-data om humor te evalueren en de output te optimaliseren.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

Image Captioning via Compact Bidirectional Architecture

Dit artikel introduceert een compact bidirectioneel Transformer-model voor beeldbeschrijving dat door het koppelen van links-naar-rechts en rechts-naar-links stromen in één parallelle architectuur, context uit beide richtingen benut en nieuwe state-of-the-art resultaten bereikt op het MSCOCO-benchmark.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng Wang2026-03-11💬 cs.CL

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

Dit artikel introduceert SDR-GAIN, een real-time generatieve tegenstrijdige imputatiemethode die ontbrekende sleutelpunten van verduisterde voetgangers in autonome rijscenario's nauwkeurig reconstrueert door te leren van de numerieke verdeling van coördinaten in plaats van visuele occlusiepatronen.

Honghao Fu, Yongli Gu, Yidong Yan + 3 more2026-03-11🤖 cs.AI

PnLCalib: Sports Field Registration via Points and Lines Optimization

Dit artikel introduceert PnLCalib, een op optimalisatie gebaseerde kalibratiemethode voor sportvelden die gebruikmaakt van een 3D-soccerfield-model en lijndetectie om nauwkeurigere camera-calibratie te bereiken in broadcast-sportvideo's dan bestaande zoekmethoden.

Marc Gutiérrez-Pérez, Antonio Agudo2026-03-11🤖 cs.AI

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

Dit artikel introduceert DP-IQA, een baanbrekende methode voor blinde beeldkwaliteitsbeoordeling in het wild die gebruikmaakt van de robuuste perceptieve priors van een vooraf getraind Stable Diffusion-model om, via kennisdistillatie naar een lichtgewicht CNN, state-of-the-art prestaties en superior generalisatievermogen te bereiken.

Honghao Fu, Yufei Wang, Wenhan Yang + 2 more2026-03-11🤖 cs.AI

Controllable Dance Generation with Style-Guided Motion Diffusion

Deze paper introduceert Style-Guided Motion Diffusion (SGMD), een Transformer-gebaseerd model dat muziekkenmerken combineert met stijlprompts en een ruimtetijdmaskeringmechanisme om realistische, stijlvol consistente en volledig controleerbare danssequenties te genereren.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

TIMotion is een efficiënt en effectief framework voor het genereren van mens-mens bewegingen dat via causale interactie-injectie, rollen-evoluerende scanning en lokaal patroonversterking de beperkingen van bestaande methoden overwint om superieure resultaten te behalen.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong Liu2026-03-11💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Deze paper introduceert een unificerend raamwerk dat kwantisatie en verduidelijking als additief ruis modelleert en een afgeleid denoising-dekwantisatietransform toepast om stabiele training van neurale netwerken op willekeurige precisie- en sparsiteitsniveaus mogelijk te maken, waardoor state-of-the-art resultaten worden behaald in ultra-lage precisie-regimes zoals A1W1.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

Dit paper introduceert DCPI, een methode voor datasetcondensatie die de prestaties verbetert door naast de gereduceerde dataset ook 'geprivilegieerde informatie' te synthetiseren die als aanvullende supervisie dient tijdens het trainen van modellen.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng Zhang2026-03-11🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Deze paper introduceert een onbeheerde methode voor representatieleren die sequentiegegevens analyseert door latente transformaties te ontleden in een combinatie van actieve, sparsere rotatie- en potentiaalvelden, wat leidt tot nieuwe ontkoppelde representaties met state-of-the-art prestaties in waarschijnlijkheid en equivariantie.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Deze paper presenteert een nieuwe beeldcompressietechniek voor onderwaterrobots die gebruikmaakt van gesynthetiseerde nieuwe weergaven en gradiëntafstijging om de beperkte bandbreedte van akoestische communicatie te overwinnen, wat resulteert in superieure compressie en beeldkwaliteit.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng Tan2026-03-11⚡ eess

Active Prompt Learning with Vision-Language Model Priors

Dit artikel introduceert een budget-efficiënt actief prompt-learningkader dat gebruikmaakt van class-geleide clustering en adaptieve drempels op basis van Vision-Language Model-priors om met minder gelabelde data een hogere nauwkeurigheid te bereiken dan bestaande methoden.

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul Ok2026-03-11💻 cs

← Vorige Volgende →