RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model

Das Paper stellt RAG-Driver vor, ein neuartiges, retrieval-augmentiertes multimodales Large-Language-Modell, das durch kontextbasiertes Lernen mit abgerufenen Expertenbeispielen hochleistungsfähige, erklärbare und generalisierbare autonome Fahrentscheidungen trifft, ohne dass nach dem Training weitere Anpassungen erforderlich sind.

Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars Kunze, Matthew Gadd2026-03-09🤖 cs.AI

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

Diese Arbeit stellt eine neuartige zweistufige Pipeline für die automatische Spracherkennung vor, die unüberwachtes Clustering von X-Vektoren mit einem auf Monte-Carlo-Dropout basierenden bayesschen Batch-Active-Learning kombiniert, um durch strategische Stichprobenauswahl den Labelaufwand zu minimieren und die Modellleistung zu optimieren.

Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic2026-03-09⚡ eess

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

Das Paper stellt FALCON vor, einen selbstüberwachten Vorab-Trainingsansatz für die UAV-Aktionserkennung, der durch objektspezifisches Masking und zukunftsorientierte Rekonstruktion die Dominanz von Hintergrundinformationen überwindet und so die Genauigkeit bei gleichzeitig schnellerer Inferenz im Vergleich zu überwachten Methoden signifikant verbessert.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

UniHR: Hierarchical Representation Learning for Unified Knowledge Graph Link Prediction

Das Paper stellt UniHR vor, ein einheitliches Framework für das hierarchische Repräsentationslernen, das durch die Module HiDR und HiSL verschiedene Arten von Wissensgraphen (hyper-relational, temporal und verschachtelt) in eine gemeinsame Tripel-basierte Darstellung überführt und so eine generalisierbare Link-Vorhersage in komplexen realen Szenarien ermöglicht.

Zhiqiang Liu, Yin Hua, Mingyang Chen + 4 more2026-03-09💬 cs.CL

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Diese Übersichtsarbeit bietet einen strukturierten Überblick über den Einsatz von Large Multimodal Language Models im gesamten wissenschaftlichen Lebenszyklus, von der Literaturrecherche und Ideengenerierung bis hin zur Inhaltserstellung, Bewertung und den damit verbundenen ethischen Herausforderungen.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Conditioning LLMs to Generate Code-Switched Text

Diese Arbeit stellt eine Methode vor, bei der LLMs durch Feinabstimmung auf einem parallelen Korpus, das durch Rückübersetzung natürlicher Code-Switching-Sätze entsteht, trainiert werden, um fließende englisch-spanische Code-Switching-Texte zu generieren, wobei sich zeigt, dass LLM-basierte Bewertungen besser mit menschlichen Präferenzen übereinstimmen als traditionelle Metriken.

Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa2026-03-09🤖 cs.AI

FragFM: Hierarchical Framework for Efficient Molecule Generation via Fragment-Level Discrete Flow Matching

Die Arbeit stellt FragFM vor, ein hierarchisches Framework zur effizienten Generierung von Molekülgraphen mittels fragmentbasierter diskreter Flow-Matching, das durch einen grob-zu-fein Autoencoder und eine stochastische Fragment-Strategie nicht nur eine überlegene Eigenschaftskontrolle ermöglicht, sondern auch durch die Einführung des NPGen-Benchmarks zur Bewertung der Erzeugung natürlicher Produkte einen neuen Maßstab für das Drug-Design setzt.

Joongwon Lee, Seonghwan Kim, Seokhyun Moon, Hyunwoo Kim, Woo Youn Kim2026-03-09🤖 cs.AI

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Der Artikel stellt FindAnything vor, einen effizienten Open-World-Mapping-Framework, der durch die Aggregation von Vision-Language-Features auf Objektebene eine skalierbare, semantisch ausdrucksstarke und geometrisch präzise 3D-Kartierung für ressourcenbeschränkte Roboter in Echtzeit ermöglicht.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI