WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

Das Paper stellt WalkGPT vor, ein pixelbasiertes Vision-Language-Modell mit Tiefenwahrnehmung und Segmentierungsfähigkeiten, das zusammen mit dem neuen Benchmark PAVE zuverlässige, zugängliche Navigationshinweise für Fußgänger in komplexen städtischen Umgebungen generiert.

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

Believing vs. Achieving -- The Disconnect between Efficacy Beliefs and Collaborative Outcomes

Die Studie zeigt, dass trotz des Einflusses von Selbstwirksamkeitsüberzeugungen auf die Delegation von Aufgaben an KI diese Überzeugungen als kognitive Anker wirken und zu einer systematischen „KI-Optimismus"-Verzerrung führen, die sich jedoch nur schwach auf die tatsächliche Leistung von Mensch-KI-Teams auswirkt und daher neue Gestaltungsrichtlinien für effektive Zusammenarbeit erfordert.

Philipp Spitzer, Joshua Holstein2026-03-12💻 cs

Early-Stage Cancer Biomarker Detection via Intravascular Nanomachines: Modeling and Analysis

Diese Studie modelliert und analysiert die Früherkennung von Krebsbiomarkern mittels intravaskulärer Nanomaschinen und zeigt, dass realistische Gefäßtransportmechanismen die Nachweiswahrscheinlichkeit verringern, wobei Kapillaren über alle Nanomaschinengrößen hinweg die höchsten Detektionsraten aufweisen.

Abdollah Rezagholi, Sergi Abadal, Filip Lemic, Eduard Alarcon, Ethungshan Shitiri2026-03-12💻 cs

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

Die Arbeit stellt FutureVLA vor, ein neues Vision-Language-Action-Modell, das durch eine neuartige Architektur zur Entkopplung visueller und motorischer Informationen sowie durch eine gemeinsame Kodierung physikalischer Priors die Vorhersagefähigkeit von Robotern verbessert und dabei sowohl zeitliche Kontinuität als auch eine visuelle Überdominanz vermeidet.

Xiaoxu Xu, Hao Li, Jinhui Ye, Yilun Chen, Jia Zeng, Xinyi Chen, Linning Xu, Dahua Lin, Weixin Li, Jiangmiao Pang2026-03-12💻 cs

MAVEN: A Meta-Reinforcement Learning Framework for Varying-Dynamics Expertise in Agile Quadrotor Maneuvers

Das Paper stellt MAVEN vor, ein Meta-Reinforcement-Learning-Framework, das es einer einzigen Strategie ermöglicht, durch einen prädiktiven Kontext-Encoder und eine GPU-vektorisierte Simulation innerhalb einer Stunde zu trainieren und sich robust an extreme dynamische Veränderungen wie Massenschwankungen von bis zu 66,7 % oder einen 70 %igen Schubverlust eines Rotors anzupassen, wodurch eine erfolgreiche Zero-Shot-Sim-zu-Real-Übertragung für agile Quadrokopter-Manöver erreicht wird.

Jin Zhou, Dongcheng Cao, Xian Wang, Shuo Li2026-03-12💻 cs

Sublinear-Time Reconfiguration of Programmable Matter with Joint Movements

Die Arbeit beweist, dass im zentralisierten Joint-Movement-Modell programmierbarer Materie jede beliebige Struktur in sublinearer Zeit von O(nlogn)O(\sqrt{n}\log n) Runden in eine kanonische Linienstruktur umkonfiguriert werden kann, wodurch eine offene Frage zur universellen Rekonfiguration ohne zusätzliche Annahmen positiv beantwortet wird.

Manish Kumar, Othon Michail, Andreas Padalkin, Christian Scheideler2026-03-12💻 cs

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Die Studie stellt den eLasmobranc-Datensatz vor, eine öffentlich zugängliche, kuratierte Bildsammlung von sieben Elasmobranchier-Arten aus dem östlichen Mittelmeer, die unter standardisierten Bedingungen außerhalb des Wassers aufgenommen wurde, um die artgenaue Klassifizierung und das Biodiversitätsmonitoring durch künstliche Intelligenz zu unterstützen.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

Die Arbeit stellt Pneuma-Seeker vor, ein System, das die LLM-basierte Datenanalyse durch die Reifizierung von Benutzeranfragen in ein relationales Schema verbessert, um so die Genauigkeit und Nachvollziehbarkeit bei der Beantwortung unpräziser Informationsbedürfnisse über heterogene Datenquellen zu erhöhen.

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro Fernandez2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Die Autoren stellen ein neuartiges, kalibrierungsfreies photometrisches Stereo-System vor, das eine rotierende Lichtquelle mit einem Ereigniskamera-basierten, pixelweisen neuronalen Netzwerk kombiniert, um präzise Oberflächennormalen auch unter schwierigen Bedingungen wie starkem Umgebungslicht und spiegelnden Reflexionen zu schätzen.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Die Arbeit „CodePercept" identifiziert die Wahrnehmungsfähigkeit als den entscheidenden Engpass für MLLMs im visuellen STEM-Reasoning und schlägt einen Paradigmenwechsel vor, bei dem ausführbarer Code als präzises Wahrnehmungsmedium dient, was durch die Einführung des 1-Millionen-Einträge-Datensatzes ICC-1M und des Evaluierungsbenchmarks STEM2Code-Eval untermauert wird.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Das Paper stellt RAGPerf vor, ein Open-Source-Framework zur umfassenden End-to-End-Leistungsbewertung von Retrieval-Augmented-Generation-Systemen, das durch modulare Komponenten, flexible Konfiguration und automatisierte Metrikenerfassung detaillierte Analysen ermöglicht, ohne nennenswerten Overhead zu verursachen.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian Huang2026-03-12💻 cs

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

Die Arbeit stellt Aceso vor, ein adaptives System zur kohlenstoff- und kosteneffizienten Platzierung von Microservices für KMU in regional begrenzten Infrastrukturen, das durch dynamische Optimierung und Suchraumverkleinerung im Vergleich zu statischen Bereitstellungen die CO₂-Emissionen um 37,4 % und die Betriebskosten um 3,6 % senkt, ohne dabei Service-Level-Vereinbarungen zu verletzen.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra Doudali2026-03-12💻 cs

AI-Generated Rubric Interfaces: K-12 Teachers' Perceptions and Practices

Die Studie zeigt, dass K-12-Lehrkräfte KI-generierte Bewertungsraster als hilfreiche Ausgangspunkte betrachten, die jedoch aufgrund von Anpassungsbedarf und mangelnder Flexibilität eine aktive menschliche Kontrolle und einfache Individualisierungsmöglichkeiten für eine sinnvolle Integration in den Unterrichtsalltag erfordern.

Bahare Riahi, Sayali Patukale, Joy Niranjan, Yogya Koneru, Tiffany Barnes, Veronica Cateté2026-03-12💻 cs

Incremental Federated Learning for Intrusion Detection in IoT Networks under Evolving Threat Landscape

Diese Studie analysiert die Leistungsfähigkeit inkrementeller Federated-Learning-Ansätze mit LSTM-Modellen auf dem CICIoMT2024-Datensatz, um ressourcenschonende und drift-resistente Intrusion-Detection-Systeme für IoT-Netzwerke zu entwickeln, wobei sich zeigt, dass kumulative und repräsentative Lernstrategien die stabilste Leistung bieten.

Muaan Ur Rehman, Hayretdin Bahs, Rajesh Kalakoti2026-03-12💻 cs

Phase-Interface Instance Segmentation as a Visual Sensor for Laboratory Process Monitoring

Die vorgestellte Arbeit stellt mit LGA-RCM-YOLO ein auf YOLO11m-basiertes Modell vor, das zusammen mit dem neuen CTG 2.0-Datensatz die instanzbasierte Segmentierung von Phasengrenzen in transparentem Labor-Glaswerk ermöglicht und so eine zuverlässige visuelle Überwachung chemischer Prozesse für die Laborautomatisierung realisiert.

Mingyue Li, Xin Yang, Shilin Yan, Jinye Ran, Morui Zhu, Zirui Peng, Huanqing Peng, Wei Peng, Guanghua Zhang, Shuo Li, Hao Zhang2026-03-12💻 cs