cs.AI papers | Gist.Science

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Dit paper introduceert MMTU, een uitgebreid benchmark met meer dan 28.000 vragen over 25 real-world tabellataken, om de complexiteit van het begrijpen, redeneren en manipuleren van tabellen door geavanceerde AI-modellen te evalueren en aan te tonen dat er nog aanzienlijke ruimte voor verbetering is.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Dit paper introduceert BemaGANv2, een geavanceerde GAN-gebaseerde vocoder voor hoogwaardige en langdurige audio-generatie die gebruikmaakt van innovatieve architecturale wijzigingen en een systematische evaluatie van discriminatorscombinaties om temporale coherentie en harmonische structuur te verbeteren.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Dit paper introduceert Co-LoRA, een methode voor gepersonaliseerd federatief leren die heterogene data en modelarchitecturen overbrugt door middel van een taak-relevantiebewuste aggregatiestrategie en een dimensie-invariante module, wat resulteert in superieure prestaties vergeleken met bestaande methoden.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning

Het paper introduceert ContextMatters, een raamwerk dat Large Language Models en klassieke planning combineert om via hiërarchische doelrelaxatie haalbare 3D-scèneplannen te genereren, wat resulteert in een aanzienlijke verbetering van het slagingspercentage en succesvolle implementatie op een echte TIAGo-robot.

Emanuele Musumeci, Michele Brienza, Francesco Argenziano, Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi2026-03-10💻 cs

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Dit paper introduceert GLMask, een semi-zelftoezicht-leringsaanpak die met minimale handmatige annotatie een state-of-the-art instantiesegmentatiemodel voor tarwekoppen ontwikkelt en bovendien aanzienlijke prestatieverbeteringen boekt op het algemene COCO-dataset.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Deze paper introduceert SamS, een efficiënt algoritme dat de prestaties van Direct Preference Optimization (DPO) voor grote taalmodellen verbetert door trainingsstalen adaptief en dynamisch te plannen op basis van de evoluerende toestand van het model, zonder de kern van het DPO-algoritme te wijzigen.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Dit paper introduceert MeRF, een methode die de prestaties van versterkingslering bij grote redeneringsmodellen verbetert door de beloningsfunctie expliciet in de prompt te integreren als 'motivatie', waardoor het model de optimalisatiedoelstellingen beter begrijpt en sneller leert.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Dit paper introduceert SUBARU, een energiezuinige aanpak voor hearables die door het bewust toepassen van sub-Nyquist sampling en lage bit-resolutie in combinatie met een breedband-reconstructiemethode, de stroomverbruik met een factor 3,31 verlaagt terwijl het spraakverbetering in realistische omstandigheden behoudt.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

LD-RPS is een nieuwe, datasetvrije methode voor universele beeldherstel die een vooraf getraind latent diffusion-model combineert met recurrente posterior sampling en semantische priors om diverse degradaties zonder gespecialiseerde training te verhelpen.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Noisy PDE Training Requires Bigger PINNs

Dit artikel toont aan dat Physics-Informed Neural Networks (PINNs) voor het oplossen van PDE's met ruis in de data een minimale netwerkgrootte vereisen om de trainingsfout onder de ruisvariatie te brengen, waarbij het simpelweg verhogen van het aantal steekproeven geen "gratis lunch" biedt.

Sebastien Andre-Sloan, Anirbit Mukherjee, Matthew Colbrook2026-03-10🤖 cs.LG

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Dit artikel introduceert MCULoRA, een robuust raamwerk voor emotionele herkenning met onvolledige multimodale data dat door middel van ontkoppeling en dynamische aanpassing van laag-rang adaptatie de prestaties van bestaande methoden aanzienlijk verbetert.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Dit paper introduceert een methode genaamd Self-Grounded Verification (SGV) die de neiging van multimodale taalmodellen om agenten-acties te overdreven te valideren (de 'agreement bias') vermindert, waardoor de nauwkeurigheid van verifiers en de prestaties van agenten in taken zoals webnavigatie en robotica aanzienlijk worden verbeterd.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Unified Medical Image Segmentation with State Space Modeling Snake

Deze paper introduceert Mamba Snake, een nieuw raamwerk voor geünificeerde medische beeldsegmentatie dat state space-modellering en een snake-specifiek visiemodule combineert om de complexe morfologische en topologische uitdagingen van meervoudige orgaandetectie effectiever op te lossen dan bestaande methoden.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Dit artikel introduceert InsightX Agent, een innovatief LMM-gebaseerd agentisch raamwerk dat de Sparse Deformable Multi-Scale Detector en het Evidence-Grounded Reflection-tool combineert om betrouwbare, interpreteerbare en interactieve X-ray NDT-analyses te leveren met een hoge detectienauwkeurigheid op de GDXray+-dataset.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Dit paper introduceert een op Vision Transformers gebaseerd framework dat, door gebruik te maken van Sentinel-2 en Formosat-5-beelden en een zwak-toezichtstrategie met PCA en een betrouwbaarheidsindex, de segmentatie van door rampen getroffen gebieden verbetert om de EVAP-producten van het Taiwan Space Agency te ondersteunen.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Flow Matching Meets Biology and Life Science: A Survey

Dit artikel biedt het eerste uitgebreide overzicht van de recente ontwikkelingen in flow matching en de toepassing ervan op biologische domeinen, waaronder sequentiemodellering, molecuulontwerp en eiwitgeneratie.

Zihao Li, Zhichen Zeng, Xiao Lin, Feihao Fang, Yanru Qu, Zhe Xu, Zhining Liu, Xuying Ning, Tianxin Wei, Ge Liu, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

Dit paper introduceert het UGST-framework om de beperkingen van huidige LLM-gebaseerde gebruikerssimulatoren in het behalen van doelen in meervoudige conversaties aan te pakken, waardoor aanzienlijke verbeteringen worden bereikt in de doelgerichtheid en betrouwbaarheid voor downstream-toepassingen.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL

CauKer: Classification Time Series Foundation Models Can Be Pretrained on Synthetic Data

Dit paper introduceert CauKer, een algoritme dat synthetische tijdreeksen genereert met behulp van Gaussische processen en causale modellen om tijdreeks-fundamentmodellen voor classificatie efficiënter voor te trainen dan met real-world data.

Shifeng Xie, Vasilii Feofanov, Ambroise Odonnat, Lei Zan, Marius Alonso, Jianfeng Zhang, Themis Palpanas, Lujia Pan, Keli Zhang, Ievgen Redko2026-03-10🤖 cs.LG

GraphProp: Training the Graph Foundation Models using Graph Properties

Dit paper introduceert GraphProp, een tweefasige methode voor het trainen van graf-foundationmodellen die zich richt op structurele generalisatie door graf-invarianten te voorspellen en deze te gebruiken als positie-encoding, waardoor de modellen superieure prestaties leveren bij graf-classificatie, vooral in scenario's zonder knooppuntattributen.

Ziheng Sun, Qi Feng, Lehao Lin, Chris Ding, Jicong Fan2026-03-10🤖 cs.LG

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Het paper introduceert Video-EM, een trainingsvrij, gebeurtenisgericht raamwerk dat lange video's omzet in een compacte, tijdsgebonden episodische geheugenreeks door middel van een zelfreflecterende LLM-agent, waardoor bestaande Video-LLMs effectiever langdurige videovragen kunnen beantwoorden zonder extra training.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

← Vorige Volgende →