cs papers | Gist.Science

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Deze paper introduceert het realistische dataset TickTockVQA en het fine-tuning-framework Swap-DPO om de zwakke prestaties van vision-language modellen bij het lezen van analoge klokken in complexe, echte omgevingen aanzienlijk te verbeteren.

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee2026-03-10💻 cs

Structure-Preserving Graph Contrastive Learning for Mathematical Information Retrieval

Dit paper introduceert 'Variable Substitution', een domeinspecifieke grafaugmentatietechniek die de semantische betekenis van wiskundige formules behoudt en zo de prestaties van contrastief leermodel voor het terugvinden van wiskundige informatie aanzienlijk verbetert.

Chun-Hsi Ku, Hung-Hsuan Chen2026-03-10💻 cs

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Dit paper introduceert PIRA-Bench, een nieuwe benchmark en het bijbehorende PIRF-raamwerk, om multimodale taalmodellen te evalueren en te trainen voor proactieve GUI-agenten die gebruikersintenties kunnen voorspellen op basis van continue visuele input in plaats van alleen reageren op expliciete instructies.

Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li2026-03-10💻 cs

Alignment--Process--Outcome: Rethinking How AIs and Humans Collaborate

Dit paper herconceptualiseert samenwerking tussen AI en mensen door een dynamisch perspectief te introduceren dat de complexe, niet-lineaire relatie tussen uitlijning, processtructuur en uitkomstresultaten analyseert via de lenzen van taaktrajecten en gedeelde intenties.

Haichang Li, Anjun Zhu, Arpit Narechania2026-03-10💻 cs

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

Dit artikel introduceert een dictionary-gestuurd raamwerk dat ontbrekende infraroodbeelden overbrugt door visuele informatie in een coëfficiënt-domein te vertalen en te fusioneren, waardoor interpreteerbare en kwalitatief betere resultaten worden bereikt zonder oncontroleerbare pixelgeneratie.

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu2026-03-10💻 cs

Vector Field Augmented Differentiable Policy Learning for Vision-Based Drone Racing

Dit paper introduceert DiffRacing, een nieuw raamwerk dat vectorvelden en differentieerbare dynamica combineert om drone-racen in complexe omgevingen te leren met hoge sample-efficiëntie en robuuste sim-naar-real overdracht.

Yang Su, Feng Yu, Yu Hu, Xinze Niu, Linzuo Zhang, Fangyu Sun, Danping Zou2026-03-10💻 cs

VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

Dit paper introduceert VSDiffusion, een tweestapsframework dat zichtbaarheidsvoorafgaande kennis gebruikt om de ill-geposeerde aard van schaduwgeneratie aan te pakken en zo realistische, geometrisch consistente schaduwen voor ingevoegde objecten te creëren.

Jing Li, Jing Zhang2026-03-10💻 cs

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

AffordGrasp is een diffusion-gebaseerd framework dat fysiek stabiele en semantisch nauwkeurige menselijke grijpposities genereert door een schaalbaar annotatieproces en een dubbel-conditioneringsproces te integreren om de kloof tussen 3D-objectrepresentaties en tekstuele instructies te overbruggen.

Xiaofei Wu, Yi Zhang, Yumeng Liu, Yuexin Ma, Yujiao Shi, Xuming He2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Deze paper introduceert MambaDance, een nieuwe aanpak voor het genereren van dansbewegingen die een op Mamba gebaseerd diffusiemodel en een Gaussische beat-representatie combineert om langere, ritmisch coherente en muziekgesynchroniseerde dansen te creëren die de beperkingen van bestaande Transformer-methoden overwinnen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Deze paper introduceert een tweestapskaskader dat natuurlijke taal omzet in skeletsequentieën en vervolgens naar realistische video's, waarbij het tekort aan openbare datasets voor complexe menselijke bewegingen oplost met een synthetisch dataset en verbeterde prestaties boekt op zowel bewegingsdiversiteit als tijdsconsistentie.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

Dit paper introduceert QualiTeacher, een nieuw raamwerk dat de kwaliteit van pseudo-labels gebruikt als conditioneel toezichtsignaal om realistische beeldherstelmodellen te trainen die kunstmatige artefacten vermijden en resultaten kunnen genereren die beter zijn dan de oorspronkelijke pseudo-labels.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

The Unit Gap: How Sharing Works in Boolean Circuits

Dit artikel bewijst dat het verschil tussen de minimale grootte van een Boolese schakeling en een formule in de AIG-basis altijd 0 of 1 is, en dat delen van subexpressies alleen nodig is wanneer het aantal essentiële variabelen een bepaalde drempel overschrijdt.

Kirill Krinkin2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Dit paper presenteert een robuust multimodaal raamwerk met veilige cross-attention en modality dropout dat de uitdagingen van de 10e ABAW-uitdaging voor expressierecognitie, zoals gedeeltelijke verduistering en ontbrekende modaliteiten, effectief aanpakt en een nauwkeurigheid van 60,79% bereikt op de Aff-Wild2-validatieset.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

Samyama: A Unified Graph-Vector Database with In-Database Optimization, Agentic Enrichment, and Hardware Acceleration

Dit paper introduceert Samyama, een hoogwaardige, in Rust geschreven graf-vectordatabase die diverse datawerklasten, analytische engines en metaheuristische optimalisatieoplossingen verenigt in één engine met in-database optimalisatie, agens-verrijking en hardwareversnelling voor verbeterde prestaties op standaardhardware.

Madhulatha Mandarapu, Sandeep Kunkunuru2026-03-10💻 cs

CEMR: An Effective Subgraph Matching Algorithm with Redundant Extension Elimination

Dit paper introduceert CEMR, een nieuw subgraafmatching-algoritme dat de prestaties op grote grafieken aanzienlijk verbetert door duplicatie te verminderen via het samenvoegen en hergebruiken van gemeenschappelijke extensies, aangevuld met twee nieuwe pruning-technieken.

Linglin Yang, Xunbin Su, Lei Zou, Xiangyang Gou, Yinnian Lin2026-03-10💻 cs

Distributed Coordination Algorithms with Efficient Communication for Open Multi-Agent Systems with Dynamic Communication Links and Processing Delays

Dit artikel presenteert drie communicatie-efficiënte, gedistribueerde algoritmen voor het oplossen van het kwantiseringsprobleem van het gemiddelde in open multi-agent systemen met dynamische verbindingen en verwerkingstijdvertragingen, waarbij de correctheid en eindige convergentie worden aangetoond via nieuwe topologische voorwaarden.

Jiaqi Hu, Karl H. Johansson, Apostolos I. Rikos2026-03-10💻 cs

Step Automata

In dit paper introduceren de auteurs het concept van stapautomata en stap-Turingmachines als een natuurlijke uitbreiding van traditionele automata en Turingmachines die het uitvoeren van een stap van atomaire acties mogelijk maakt zonder partiële ordening.

Yong Wang2026-03-10💻 cs

Trajectory Tracking Control Design for Autonomous Helicopters with Guaranteed Error Bounds

Dit artikel presenteert een systematisch raamwerk voor het berekenen van formeel gegarandeerde foutgrenzen voor de trajectvolging van autonome helikopters met behulp van Robuust Positief Invariante (RPI) sets, waarbij drie regelaararchitecturen worden vergeleken op conservatisme en prestaties.

Philipp Schitz, Johann C. Dauer, Paolo Mercorelli2026-03-10💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

Dit paper introduceert WhispEar, een bidirectioneel framework dat schaalbare pseudo-parallelle fluisterdata genereert via een N2W-model om de conversie van fluister- naar normaal spraak te verbeteren, ondersteund door het grootste tweetalige corpus tot nu toe.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng Wu2026-03-10💻 cs

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

Dit artikel introduceert het S2S-FDD-framework, dat hoogdimensionale industriële tijdsreeksdata omzet in natuurlijke taal om met behulp van grote taalmodellen uitlegbare zero-shot foutdiagnose mogelijk te maken en zo de beperkingen van traditionele modellen te overwinnen.

Baoxue Li, Chunhui Zhao2026-03-10💻 cs

← Vorige Volgende →