Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Die Arbeit stellt NANOMIND vor, ein Hardware-Software-Co-Design-Framework, das durch modulare Zerlegung und dynamisches Offloading von Large Multimodal Models auf heterogene Beschleuniger in SoCs die Energieeffizienz und den Durchsatz auf batteriebetriebenen Kleingeräten signifikant verbessert und es ermöglicht, komplexe Modelle wie LLaVA-OneVision über 20 Stunden ohne Netzverbindung lokal auszuführen.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

Deliberative Dynamics and Value Alignment in LLM Debates

Diese Studie untersucht die deliberativen Dynamiken und Wertausrichtungen von LLMs in Mehr-Turn-Debatten zu alltäglichen ethischen Dilemmata und zeigt, dass sich Modelle wie GPT-4.1, Claude 3.7 Sonnet und Gemini 2.0 Flash in Bezug auf Urteilsrevisionsraten, Werteprioritäten und die Anfälligkeit für Reihenfolgeeffekte je nach Synchronisationsmodus (parallel vs. sequenziell) erheblich unterscheiden.

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Die Arbeit stellt einen retraining-freien, leichten Plugin-Ansatz namens „Functional Head Identification and Class-Conditioned Rescaling" vor, der durch die adaptive Neubalanceierung von wahrnehmungs- und denkorientierten Aufmerksamkeitsköpfen über die Netzwerkschichten hinweg Halluzinationen in multimodalen großen Reasoning-Modellen reduziert und dabei die Genauigkeit signifikant steigert, ohne die Architektur zu verändern oder die Latenz erheblich zu erhöhen.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Diese Arbeit stellt ein neuartiges Framework namens Collision-based Multi-modal Rehearsal (CMR) vor, das durch gezielte Stichprobenselektion und kollisionsbasierte Wiederholung das Problem der Modalitätsverschränkung beim kontinuierlichen Audio-Visuellen Segmentieren löst und dabei semantische Drift sowie Verwechslungen bei häufig gemeinsam auftretenden Klassen effektiv adressiert.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Die vorgestellte Arbeit führt Permutation Relative Policy Optimization (PRPO) ein, eine Reinforcement-Learning-Methode, die strukturelle Priors nutzt, um die numerische Schlussfolgerung von Large Language Models für Tabellenvorhersagen zu stärken und dabei selbst in Zero-Shot-Szenarien die Leistung deutlich größerer Modelle zu übertreffen.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Das Paper stellt Dream4Drive vor, ein neues Framework zur Erzeugung synthetischer, fotorealistischer Mehransichtsvideos mittels 3D-Assets und Weltmodellen, das speziell darauf ausgelegt ist, die Leistung von Wahrnehmungsmodellen im autonomen Fahren, insbesondere bei seltenen Randfällen, signifikant zu verbessern.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

Das Paper stellt HCLA vor, ein menschenzentriertes Multi-Agenten-System, das durch die Trennung von Evidenzbewertung und expertenähnlicher Begründung die Interpretierbarkeit und Rechenschaftspflicht bei der Erkennung anomaler Transaktionen digitaler Vermögenswerte verbessert, indem es algorithmische Befunde mit regulatorischen Urteilen in Einklang bringt.

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

Das Paper stellt LagMemo vor, ein Navigationssystem, das eine 3D-Gauß-Splatting-Speichertechnologie mit Sprachdaten nutzt, um effiziente, offene und multimodale Zielsuche in komplexen Umgebungen zu ermöglichen, und wird durch den neu erstellten GOAT-Core-Datensatz rigoros evaluiert.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

SwiftEmbed ist ein in Rust implementiertes, produktionsreifes System, das durch statische Token-Lookups und Zero-Copy-Serialisierung Echtzeit-Text-Embeddings mit einer Latenz von 1,12 ms und 50.000 Anfragen pro Sekunde ermöglicht, wobei es bei Deduplizierungs- und Ähnlichkeitsaufgaben eine hohe Genauigkeit erreicht, jedoch bei komplexeren Klassifizierungsaufgaben hinter Transformer-basierten Modellen zurückbleibt.

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL

Vectorized Online POMDP Planning

Das Paper stellt VOPP vor, einen vektorisierten Online-POMDP-Planer, der durch die Umwandlung aller Planungsdatenstrukturen in Tensoren und die vollständige Vektorisierung der Berechnungen massive Parallelisierung ohne Synchronisationsengpässe ermöglicht und damit sowohl effizientere Lösungen als auch eine um den Faktor 1000 reduzierte Planungsbudget-Nutzung im Vergleich zu bestehenden Solvern erreicht.

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs