cs.AI papers | Gist.Science

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

Het paper introduceert HouseMind, een multimodaal groot taalmodel dat discrete tokens gebruikt om vloerplannen te begrijpen, te genereren en te bewerken, waardoor het coherente en controleerbare architecturale ontwerpen kan creëren op basis van tekstuele instructies.

Sizhong Qin, Ramon Elias Weber, Xinzheng Lu2026-03-13🤖 cs.AI

IDRL: An Individual-Aware Multimodal Depression-Related Representation Learning Framework for Depression Diagnosis

Dit paper introduceert IDRL, een robuust multimodaal kader voor de diagnose van depressie dat modale inconsistenties en individuele verschillen aanpakt door representaties te ontkoppelen in depressie-gerelateerde en -ongerelateerde ruimtes en een dynamische, individu-bewuste fusiemodule te gebruiken voor adaptieve integratie van kenmerken.

Chongxiao Wang, Junjie Liang, Peng Cao, Jinzhu Yang, Osmar R. Zaiane2026-03-13🤖 cs.AI

Stable Spike: Dual Consistency Optimization via Bitwise AND Operations for Spiking Neural Networks

Dit paper introduceert Stable Spike, een methode die via hardware-vriendelijke bitwise-AND-operaties een stabiel spike-skelet ontleent aan multi-tijdstap-spikekaarten om inconsistenties in Spiking Neural Networks te verminderen en zo de herkenning en generalisatie, vooral bij ultra-lage latentie, aanzienlijk te verbeteren.

Yongqi Ding, Kunshan Yang, Linze Li, Yiyang Zhang, Mengmeng Jing, Lin Zuo2026-03-13🤖 cs.AI

From Control to Foresight: Simulation as a New Paradigm for Human-Agent Collaboration

Dit perspectiefartikel pleit voor een nieuw samenwerkingsparadigma tussen mens en agent, genaamd 'simulatie-in-de-lus', dat gebruikers in staat stelt toekomstige trajecten te verkennen om zo van louter reactieve controle naar gefundeerde vooruitziende besluitvorming te evolueren.

Gaole He, Brian Y. Lim2026-03-13💬 cs.CL

LLMs can construct powerful representations and streamline sample-efficient supervised learning

Dit paper introduceert een agentieke pipeline waarbij LLM's een rubriek genereren om complexe, multimodale klinische data te standaardiseren, wat leidt tot aanzienlijk betere prestaties in supervisie-leren dan traditionele methoden en zelfs grootschalig vooraf getrainde modellen, terwijl het tegelijkertijd auditbaarheid en kostenefficiëntie waarborgt.

Ilker Demirel, Larry Shi, Zeshan Hussain, David Sontag2026-03-13🤖 cs.AI

Entropy-Preserving Reinforcement Learning

Dit paper introduceert entropy-bevarende versterkende leermethoden, zoals REPO en ADAPO, die de diversiteit van verkenning actief behouden tijdens het trainen van beleidsgradiëntalgoritmen, waardoor modellen beter presteren en hun trainbaarheid voor sequentieel leren behouden.

Aleksei Petrenko, Ben Lipkin, Kevin Chen, Erik Wijmans, Marco Cusumano-Towner, Raja Giryes, Philipp Krähenbühl2026-03-13🤖 cs.LG

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Deze paper introduceert een nieuw causaal prosodie-mediatiestelsel voor tekst-naar-spraak dat de FastSpeech2-architectuur uitbreidt met contrafactuele training om emotionele prosodie effectief te ontkoppelen van linguïstische inhoud, wat leidt tot een beter controleerbare en expressieve spraaksynthese.

Suvendu Sekhar Mohanty2026-03-13🤖 cs.AI

SemBench: A Universal Semantic Framework for LLM Evaluation

In dit paper wordt SemBench voorgesteld, een lichtgewicht en taalonafhankelijk raamwerk dat synthetische benchmarks genereert op basis van woordenboekdefinities om de semantische competentie van grote taalmodellen efficiënt en cross-linguaal te evalueren.

Mikel Zubillaga, Naiara Perez, Oscar Sainz, German Rigau2026-03-13💬 cs.CL

Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks

Deze paper introduceert een 'Explicit Logic Channel' die parallel aan een black-box multimodaal model werkt om zero-shot taken te valideren, te selecteren en te verbeteren via expliciete logische redenering en een consistentieratio, waardoor de betrouwbaarheid en uitlegbaarheid van deze modellen zonder ground-truth annotaties toeneemt.

Mei Chee Leong, Ying Gu, Hui Li Tan, Liyuan Li, Nancy Chen2026-03-13🤖 cs.AI

STAIRS-Former: Spatio-Temporal Attention with Interleaved Recursive Structure Transformer for Offline Multi-task Multi-agent Reinforcement Learning

Het artikel introduceert STAIRS-Former, een transformer-architectuur met ruimtelijke en temporele hiërarchieën die de prestaties van offline multi-agent versterkt leren op multi-task datasets aanzienlijk verbetert door effectieve inter-agent coördinatie en langere tijdsafhankelijkheden te modelleren.

Jiwon Jeon, Myungsik Cho, Youngchul Sung2026-03-13🤖 cs.AI

OSCBench: Benchmarking Object State Change in Text-to-Video Generation

Deze paper introduceert OSCBench, een nieuwe benchmark die is opgezet om de prestaties van tekst-naar-video-modellen te evalueren op het gebied van object-staatveranderingen, en onthult dat huidige modellen ondanks sterke algemene prestaties moeite hebben met het nauwkeurig en consistent genereren van deze veranderingen, vooral in nieuwe en samengestelde scenario's.

Xianjing Han, Bin Zhu, Shiqi Hu, Franklin Mingzhe Li, Patrick Carrington, Roger Zimmermann, Jingjing Chen2026-03-13💬 cs.CL

Scaling Laws for Educational AI Agents

Dit paper introduceert de 'Agent Scaling Law' voor educatieve AI-agenten, een raamwerk dat stelt dat prestaties voorspelbaar toenemen met de structuurrijke complexiteit van profielen (zoals de roldefinitie en vaardigheden) in plaats van alleen met de modelgrootte, wat wordt geoperationaliseerd door het EduClaw-platform met meer dan 330 agenten.

Mengsong Wu, Hao Hao, Shuzhen Bi, Keqian Li, Wentao Liu, Siyu Song, Hongbo Zhao, Aimin Zhou2026-03-13🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Deze studie introduceert een dataset en toont aan dat oppervlakte-EMG-sensoren van het gezicht en de nek emotionele expressies, met name frustratie, betrouwbaar kunnen decoderen tijdens zowel gesproken als stilte spraak, wat de weg vrijmaakt voor affectbewuste interfaces voor stilte spraak.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. Schuller2026-03-13⚡ eess

When OpenClaw Meets Hospital: Toward an Agentic Operating System for Dynamic Clinical Workflows

Dit paper stelt een architectuur voor voor een 'agentic besturingssysteem' dat OpenClaw uitbreidt met beveiligde uitvoeringsomgevingen, documentgerichte interactie en indexgebaseerd geheugen om veilige en transparante autonome agenten voor klinische workflows mogelijk te maken.

Wenxian Yang, Hanzheng Qiu, Bangqun Zhang, Chengquan Li, Zhiyong Huang, Xiaobin Feng, Rongshan Yu, Jiahong Dong2026-03-13🤖 cs.AI

Adapting Dijkstra for Buffers and Unlimited Transfers

Dit paper introduceert de Transfer Aware Dijkstra (TAD)-algoritme, dat buffer-tijden correct verwerkt door volledige ritsequenties te scannen in plaats van individuele verbindingen, en hiermee de bestaande RAPTOR-gebaseerde MR-methode op de Londense en Zwitserse netwerken met meer dan een factor twee verslaat terwijl het optimale resultaten garandeert.

Denys Katkalo, Andrii Rohovyi, Toby Walsh2026-03-13🤖 cs.AI

Gender Bias in Generative AI-assisted Recruitment Processes

Dit onderzoek toont aan dat, hoewel generatieve AI-modellen zoals GPT-5 geen significante verschillen tonen in de aanbevolen functies voor mannelijke en vrouwelijke kandidaten, ze wel genderstereotypen reproduceren door vrouwen te associëren met emotionele eigenschappen en mannen met strategische en analytische vaardigheden.

Martina Ullasci, Marco Rondina, Riccardo Coppola, Antonio Vetrò2026-03-13🤖 cs.AI

CINDI: Conditional Imputation and Noisy Data Integrity with Flows in Power Grid Data

Dit paper introduceert CINDI, een onbewaakte probabilistisch raamwerk op basis van conditionele normaliserende flows dat detectie van anomalieën en imputatie van ruis in multivariate tijdsreeksen, zoals elektriciteitsnetwerkdata, verenigt tot één end-to-end systeem om de gegevensintegriteit te herstellen.

David Baumgartner, Helge Langseth, Heri Ramampiaro2026-03-13🤖 cs.AI

Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Dit onderzoek toont aan dat taalmodellen correcte informatie niet prefereren vanwege een intrinsieke waarheidsdrang, maar omdat compressiedruk en interne consistentie waarheid vaak een structureel voordeel bieden, tenzij foutieve informatie even coherent is.

Konstantin Krestnikov2026-03-13💬 cs.CL

Anomaly detection in time-series via inductive biases in the latent space of conditional normalizing flows

Dit artikel introduceert een methode voor anomaly detection in tijdreeksen waarbij conditionele normalizing flows worden gebruikt om observaties af te beelden op een latente ruimte met voorgeschreven temporele dynamica, waardoor afwijkingen betrouwbaar kunnen worden gedetecteerd via statistische toetsen op de latentetrajectorieën in plaats van op de waarschijnlijkheid in de observatieruimte.

David Baumgartner, Eliezer de Souza da Silva, Iñigo Urteaga2026-03-13🤖 cs.AI

Exploiting Expertise of Non-Expert and Diverse Agents in Social Bandit Learning: A Free Energy Approach

Dit paper introduceert een op vrije-energie gebaseerd algoritme voor sociaal bandietleren dat een agent in staat stelt om de expertise van andere agenten te schatten en hun gedrag effectief te benutten voor verbeterd individueel leren, zelfs in afwezigheid van beloningsinformatie of in aanwezigheid van niet-expert agenten, terwijl het logarithmische regret behoudt.

Erfan Mirzaei, Seyed Pooya Shariatpanahi, Alireza Tavakoli, Reshad Hosseini, Majid Nili Ahmadabadi2026-03-13📊 stat

← Vorige Volgende →