Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Diese Studie analysiert die inneren Aktivierungen von leichten Vision-Language-Modellen für den autonomen Fahrverkehr, um festzustellen, dass visuelle Konzepte wie Objektpräsenz linear kodiert sind, während räumliche Eigenschaften oft nur implizit vorliegen, und identifiziert dabei zwei Hauptfehlermodi: eine wahrgenommene Unfähigkeit, visuelle Informationen zu erfassen, sowie eine kognitive Unfähigkeit, diese mit Sprachsemantik korrekt abzugleichen.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Die Arbeit stellt TempoSyncDiff vor, einen effizienten, auf Wissenstransfer basierenden Latent-Diffusionsrahmen für audiogetriebene sprechende Köpfe, der durch Few-Step-Inferenz, Identitätsanker und zeitliche Regularisierung eine niedrige Latenz bei gleichzeitiger Verbesserung der temporalen Stabilität und Synchronisation ermöglicht.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Die Studie zeigt, dass aktuelle Large Language Models zwar in der Lage sind, österreichische A-Level-German-Aufsätze anhand von Bewertungsrastern zu analysieren, jedoch mit einer Übereinstimmungsrate von maximal 40,6 % bei Teilaspekten und nur 32,8 % bei der Endnote noch nicht die notwendige Genauigkeit für den realen Einsatz in der automatisierten Benotung erreichen.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

Die Arbeit stellt eine neue Aufgabe namens „Emotionally Continuous Talking Face Generation" (EC-TFG) und ein entsprechendes Modell (TIE-TFG) vor, die es ermöglichen, realistische sprechende Gesichter zu erzeugen, deren Mimik sich kontinuierlich und fließend an dynamische emotionale Veränderungen im Text anpasst.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Diese Studie zeigt, dass durch unsupervisedes Weiter-Training mit domänenspezifischen Texten simulierte unterschiedliche Erfahrungen die Persönlichkeit von Large Language Models prägen und dabei eine „Unterdrückungsvorteil"-Hypothese aufdecken, wonach reduzierte soziale Merkmale die komplexe reasoning-Leistung steigern, was einen Weg für gezieltes „Personality Engineering" eröffnet.

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

A Causal Graph Approach to Oppositional Narrative Analysis

Die Arbeit stellt ein graphbasiertes Framework vor, das oppositionelle Narrative durch die Modellierung von Entitätsinteraktionen und kausaler Schätzung auf Knotenebene analysiert und dabei eine überlegene Klassifizierungsgenauigkeit sowie interpretierbare Ergebnisse im Vergleich zu herkömmlichen Black-Box-Methoden erzielt.

Diego Revilla, Martin Fernandez-de-Retana, Lingfeng Chen, Aritz Bilbao-Jayo, Miguel Fernandez-de-Retana2026-03-09🤖 cs.AI

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Die Arbeit stellt Place-it-R1 vor, ein End-zu-End-Framework, das die Chain-of-Thought-Reasoning-Fähigkeiten von Multimodalen Large Language Models nutzt, um physikalisch konsistente und umweltbewusste Video-Objekteinfügungen durch einen iterativen „Denken-dann-Einfügen"-Prozess zu ermöglichen.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Diese Studie zeigt, dass Ensemble-Graph-Neural-Networks für die probabilistische Vorhersage der Meeresoberflächentemperatur durch räumlich kohärente Eingangsstörungen (z. B. Perlin-Rauschen) eine gut kalibrierte Unsicherheitsquantifizierung erreichen, ohne zusätzliche Trainingskosten zu verursachen.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Die Studie RAPTOR zeigt, dass für die robuste Erkennung von Audio-Deepfakes über verschiedene Domänen hinweg die Art des SSL-Vor-Trainings (insbesondere multilinguales HuBERT) entscheidender ist als die reine Modellgröße, wobei kompakte Modelle mit 100 Millionen Parametern kommerzielle Großsysteme übertreffen und eine stabilere Kalibrierung unter Störungen aufweisen.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss2026-03-09🤖 cs.AI