cs.AI papers | Gist.Science

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Dit artikel introduceert MCULoRA, een robuust raamwerk voor emotionele herkenning met onvolledige multimodale data dat door middel van ontkoppeling en dynamische aanpassing van laag-rang adaptatie de prestaties van bestaande methoden aanzienlijk verbetert.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Dit paper introduceert een methode genaamd Self-Grounded Verification (SGV) die de neiging van multimodale taalmodellen om agenten-acties te overdreven te valideren (de 'agreement bias') vermindert, waardoor de nauwkeurigheid van verifiers en de prestaties van agenten in taken zoals webnavigatie en robotica aanzienlijk worden verbeterd.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Unified Medical Image Segmentation with State Space Modeling Snake

Deze paper introduceert Mamba Snake, een nieuw raamwerk voor geünificeerde medische beeldsegmentatie dat state space-modellering en een snake-specifiek visiemodule combineert om de complexe morfologische en topologische uitdagingen van meervoudige orgaandetectie effectiever op te lossen dan bestaande methoden.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Dit artikel introduceert InsightX Agent, een innovatief LMM-gebaseerd agentisch raamwerk dat de Sparse Deformable Multi-Scale Detector en het Evidence-Grounded Reflection-tool combineert om betrouwbare, interpreteerbare en interactieve X-ray NDT-analyses te leveren met een hoge detectienauwkeurigheid op de GDXray+-dataset.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Dit paper introduceert een op Vision Transformers gebaseerd framework dat, door gebruik te maken van Sentinel-2 en Formosat-5-beelden en een zwak-toezichtstrategie met PCA en een betrouwbaarheidsindex, de segmentatie van door rampen getroffen gebieden verbetert om de EVAP-producten van het Taiwan Space Agency te ondersteunen.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Flow Matching Meets Biology and Life Science: A Survey

Dit artikel biedt het eerste uitgebreide overzicht van de recente ontwikkelingen in flow matching en de toepassing ervan op biologische domeinen, waaronder sequentiemodellering, molecuulontwerp en eiwitgeneratie.

Zihao Li, Zhichen Zeng, Xiao Lin, Feihao Fang, Yanru Qu, Zhe Xu, Zhining Liu, Xuying Ning, Tianxin Wei, Ge Liu, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

Dit paper introduceert het UGST-framework om de beperkingen van huidige LLM-gebaseerde gebruikerssimulatoren in het behalen van doelen in meervoudige conversaties aan te pakken, waardoor aanzienlijke verbeteringen worden bereikt in de doelgerichtheid en betrouwbaarheid voor downstream-toepassingen.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL

CauKer: Classification Time Series Foundation Models Can Be Pretrained on Synthetic Data

Dit paper introduceert CauKer, een algoritme dat synthetische tijdreeksen genereert met behulp van Gaussische processen en causale modellen om tijdreeks-fundamentmodellen voor classificatie efficiënter voor te trainen dan met real-world data.

Shifeng Xie, Vasilii Feofanov, Ambroise Odonnat, Lei Zan, Marius Alonso, Jianfeng Zhang, Themis Palpanas, Lujia Pan, Keli Zhang, Ievgen Redko2026-03-10🤖 cs.LG

GraphProp: Training the Graph Foundation Models using Graph Properties

Dit paper introduceert GraphProp, een tweefasige methode voor het trainen van graf-foundationmodellen die zich richt op structurele generalisatie door graf-invarianten te voorspellen en deze te gebruiken als positie-encoding, waardoor de modellen superieure prestaties leveren bij graf-classificatie, vooral in scenario's zonder knooppuntattributen.

Ziheng Sun, Qi Feng, Lehao Lin, Chris Ding, Jicong Fan2026-03-10🤖 cs.LG

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Het paper introduceert Video-EM, een trainingsvrij, gebeurtenisgericht raamwerk dat lange video's omzet in een compacte, tijdsgebonden episodische geheugenreeks door middel van een zelfreflecterende LLM-agent, waardoor bestaande Video-LLMs effectiever langdurige videovragen kunnen beantwoorden zonder extra training.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniCast: A Unified Framework for Instance-Conditioned Multimodal Time-Series Forecasting

Het paper introduceert UniCast, een parameter-efficiënt multimodaal framework dat bestaande tijdreeksfoundationmodellen uitbreidt met instance-geconditioneerde prompting en dynamische modale routing om de voorspellingsnauwkeurigheid te verbeteren door contextuele aanpassing op instanceniveau.

Sehyuk Park, Soyeon Caren Han, Eduard Hovy2026-03-10💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Dit paper introduceert ECHO, een nieuw foundation model dat geavanceerde band-split architectuur en frequentie-positional embeddings combineert om variabele lengte signaalanalyses op willekeurige samplefrequenties mogelijk te maken, wat leidt tot state-of-the-art prestaties in machine-anomaliedetectie en foutclassificatie.

Yucong Zhang, Juan Liu, Ming Li2026-03-10🤖 cs.LG

Entropy-Driven Curriculum for Multi-Task Training in Human Mobility Prediction

Dit artikel introduceert een unificerend trainingskader dat een entropie-gedreven curriculumleerstrategie combineert met multi-task learning om de menselijke mobiliteitsvoorspelling te verbeteren door trajectvoorspelbaarheid te kwantificeren en afstand en richting als aanvullende taken te integreren, wat leidt tot state-of-the-art prestaties en een tot 2,92-voudig snellere convergentie.

Tianye Fang, Xuanshu Luo, Martin Werner2026-03-10🤖 cs.LG

Improving the Resilience of Quadrotors in Underground Environments by Combining Learning-based and Safety Controllers

Dit artikel presenteert een hybride besturingsmethode voor quadcopters in ondergrondse omgevingen die een normalizing flow gebruikt om als runtime-monitor te fungeren en zo naadloos schakelt tussen een leergestuurde controller voor snelheid en een veilige controller om botsingen te voorkomen.

Isaac Ronald Ward, Mark Paral, Kristopher Riordan + 1 more2026-03-10⚡ eess

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

Dit paper introduceert OTESGN, een nieuw model voor aspect-gebaseerde sentimentanalyse dat optimale transport en syntactisch-semantische grafieken combineert om state-of-the-art prestaties te bereiken door niet-lineaire relaties beter te modelleren en ruis te onderdrukken.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying Rong2026-03-10💬 cs.CL

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

Deze studie introduceert een visiegebaseerd systeem dat met behulp van computer vision en objectdetectie het rijgedrag van niet-verbonden voertuigen analyseert om afleiding en vermoeidheid te detecteren en zo bijdraagt aan het verminderen van verkeersongevallen.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

Synthetic Homes: An Accessible Multimodal Pipeline for Producing Residential Building Data with Generative AI

Dit artikel introduceert een modulaire, multimodale pipeline die gebruikmaakt van generatieve kunstmatige intelligentie om realistische, synthetische data over woongebouwen te genereren op basis van publiek toegankelijke beelden, waardoor de afhankelijkheid van kostbare of privacygevoelige bronnen voor energie- en bouwsimulatie wordt verminderd.

Jackson Eshbaugh, Chetan Tiwari, Jorge Silveyra2026-03-10🤖 cs.LG

MICA: Multi-Agent Industrial Coordination Assistant

Dit paper introduceert MICA, een privacy-bewust, spraakgebaseerd multi-agent systeem dat adaptieve en veilige real-time ondersteuning biedt voor industriële workflows en dat door middel van Adaptive Step Fusion en nieuwe benchmarks de betrouwbaarheid en responsiviteit in dynamische fabrieksomgevingen significant verbetert.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

Compose by Focus: Scene Graph-based Atomic Skills

Dit artikel introduceert een robuust raamwerk voor compositional generalisatie in algemene robots dat scene graphs combineert met diffusie-imitatieleren en een vision-language model om complexe, langdurige taken succesvoller uit te voeren dan bestaande methoden.

Han Qi, Changhe Chen, Heng Yang2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Dit paper introduceert FINS, een lichtgewicht framework dat met behulp van een enkele afbeelding en vooraf getrainde fundamentele modellen binnen enkele seconden hoogwaardige impliciete oppervlakken en SDF-velden reconstrueert voor robottoepassingen zoals bewegingsgeneratie.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

← Vorige Volgende →