cs papers | Gist.Science

Vision Language Models Cannot Reason About Physical Transformation

De studie ConservationBench onthult dat Vision Language Models systematisch falen in het redeneren over fysieke transformaties en het behoud van eigenschappen, omdat hun prestaties dicht bij het toeval blijven en zelfs verslechteren wanneer visuele informatie wordt toegevoegd ondanks sterke tekstuele vooroordelen.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Learning From Failures: Efficient Reinforcement Learning Control with Episodic Memory

Dit paper introduceert Failure Episodic Memory Alert (FEMA), een techniek die door het opslaan en hergebruiken van korte faalervaringen in een episodisch geheugen de sample-efficiëntie van reinforcement learning voor robots aanzienlijk verbetert door herhaaldelijke instabiele toestanden te voorkomen.

Chenyang Miao2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

Dit paper introduceert S-PCL, een efficiënt zelftoezichtend leerframework voor borstfoto's dat door semantische partitie van patch-tokens zonder handmatige augmentaties of decoders een gestroomlijnde architectuur biedt met superieure prestaties en het laagste rekenverbruik.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

Dit artikel introduceert aCAPTCHA, een nieuw beveiligingsprotocol dat gebruikmaakt van tijdsgebonden asymmetrische moeilijkheid om autonome AI-agenten, menselijke gebruikers en scripts van elkaar te onderscheiden via een verificatieprobleem voor agentic capaciteiten.

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

Dit paper introduceert TIQA, een nieuwe taak en dataset voor menselijk afgestemde tekstkwaliteitsbeoordeling in gegenereerde afbeeldingen, en presenteert ANTIQA, een lichtgewicht methode die de correlatie met menselijke beoordelingen significant verbetert ten opzichte van bestaande OCR- en VLM-basismethoden.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

Dit artikel introduceert Inter-image Pixel Shuffling (IPS), een innovatieve methode die multi-focus beeldfusie mogelijk maakt zonder echte trainingsdata door het probleem te herformuleren als pixel-classificatie tussen scherpe en onscherpe versies van dezelfde afbeelding, wat resulteert in superieure fusieprestaties.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Efficient Trajectory Optimization for Autonomous Racing via Formula-1 Data-Driven Initialization

Dit artikel presenteert een datagedreven aanpak voor autonome raceauto's waarbij een op Formule 1-telemetrie getraind neuronaal netwerk expert-achtige trajecten voorspelt om de convergentie en rekentijd van optimalisatieoplossers aanzienlijk te verbeteren zonder de uiteindelijke rittijd te beïnvloeden.

Samir Shehadeh, Lukas Kutsch, Nils Dengler, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Deze paper introduceert een multimodaal dataset voor industriële foutanalyse, bestaande uit audio- en trillingssignalen van een kettingtransportband, dat is ontworpen om robuuste systemen voor foutdetectie en -classificatie onder diverse bedrijfsomstandigheden te ondersteunen.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming Li2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Dit paper introduceert EyExIn, een data-efficiënt raamwerk dat retinale Vision Language Models versterkt met diepe expertinjectie en een dubbelstroom-architectuur om de kloof tussen algemene visuele waarneming en medisch redeneren te overbruggen en zo hallucinaties te voorkomen.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

More Than 1v1: Human-AI Alignment in Early Developmental Communities with Multimodal LLMs

Dit paper pleit ervoor dat mens-AI-alignement in ontwikkelingscontexten, zoals ouder-kindinteracties met multimodale LLM's, moet worden benaderd als een door de gemeenschap beheerd proces van gelaagde afstemming tussen experts en gezinnen, in plaats van als een individueel optimalisatieprobleem.

Weiyan Shi, Kenny Tsu Wei Choo2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

Dit paper introduceert AutoSelect, een methode die visuele tokens in vision-language modellen automatisch selecteert via een ruisgebaseerde poortmechanisme om de inferentiekosten aanzienlijk te verlagen terwijl de nauwkeurigheid behouden blijft.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs

DexKnot: Generalizable Visuomotor Policy Learning for Dexterous Bag-Knotting Manipulation

DexKnot is een nieuw raamwerk dat door het combineren van keypoint-affordances met een diffusiemodel een generaliseerbaar visueel-motorisch beleid leert om plastic zakken op betrouwbare manier te knopen, zelfs bij onbekende vormen en vervormingen.

Jiayuan Zhang, Ruihai Wu, Haojun Chen, Yuran Wang, Yifan Zhong, Ceyao Zhang, Yaodong Yang, Yuanpei Chen2026-03-10💻 cs

Model-based thermal drift compensation for high-precision hexapod robot actuators

Dit artikel presenteert een modelgebaseerde methode voor het compenseren van thermische drift in hexapod-robotactuatoren, waarbij een theoretisch model gekalibreerd wordt met interferometrische metingen om de door temperatuur veroorzaakte uitzetting met meer dan 80% te reduceren.

Clément Robert, Alain Vissiere, Olivier Company, Pierre Noire, Thierry Roux, Sébastien Krut2026-03-10💻 cs

PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection

Dit paper introduceert PDD, een nieuw raamwerk voor de detectie van afwijkingen in medische beelden dat gebruikmaakt van een manifold-prior met dual-teacher priors en diverse distillatiestrategieën om significante verbeteringen in prestaties te bereiken ten opzichte van bestaande state-of-the-art methoden.

Xijun Lu, Hongying Liu, Fanhua Shang, Yanming Hui, Liang Wan2026-03-10💻 cs

Tutorial on Aided Inertial Navigation Systems: A Modern Treatment Using Lie-Group Theoretical Methods

Dit tutorialartikel biedt een controlegerichte introductie tot ondersteunde traagheidsnavigatiesystemen door gebruik te maken van een Lie-groepformulering rond de uitgebreide Special Euclidean-groep SE₂(3), met de nadruk op een geometrisch raamwerk voor sensorfusie dat invariance en symmetrie expliciet maakt.

Soulaimane Berkane2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

Dit paper introduceert CanoVerse, een schaalbaar 3D-dataset en raamwerk dat door het standaardiseren van objectoriëntatie de stabiliteit van 3D-generatie en de precisie van vormretrieval aanzienlijk verbetert.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Dit paper introduceert LiveWorld, een nieuw framework dat bestaande generatieve videowereldmodellen verbetert door een persistent globale staat te modelleren die dynamiek blijft simuleren zelfs wanneer objecten buiten het gezichtsveld van de waarnemer zijn, waardoor een echt continu evoluerende wereld mogelijk wordt.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs

Transition State Theory for Network Dynamics

Dit artikel introduceert een raamwerk dat transitietoestandtheorie combineert met dynamisch netwerkmodeleren om het proces van structurele verandering in netwerken te karakteriseren en, onder bepaalde voorwaarden, zelfs te voorspellen op basis van kruisdoorsnede-modellen, zoals geïllustreerd aan de hand van factierherordening in kleine groepen.

Carter T. Butts2026-03-10💻 cs

NarrativeLoom: Enhancing Creative Storytelling through Multi-Persona Collaborative Improvisation

Het paper introduceert NarrativeLoom, een door theorie geïnspireerd co-creatie-systeem dat gebruikmaakt van multi-persona AI-improvisatie en menselijke selectie om, zoals aangetoond in een studie met 50 deelnemers, creatiever, origineler en uitgebreider verhalen te produceren dan bestaande hulpmiddelen, waarbij met name beginnende schrijvers profiteren van de gestructureerde ondersteuning.

Yuxi Ma, Yongqian Peng, Fengyuan Yang, Siyu Zha, Chi Zhang, Zixia Jia, Zilong Zheng, Yixin Zhu2026-03-10💻 cs

Improving reasoning at inference time via uncertainty minimisation

Dit paper introduceert een efficiënte inferentie-methode die redenering verbetert door op het niveau van individuele gedachten de zelfzekerheid van het model te maximaliseren, wat leidt tot betere prestaties dan traditionele methoden zoals greedy decoding en self-consistency met een beperkt rekenbudget.

Nicolas Legrand, Kenneth Enevoldsen, Márton Kardos, Kristoffer Nielbo2026-03-10💻 cs

← Vorige Volgende →