cs.AI Arbeiten | Gist.Science

Sensitivity-Aware Retrieval-Augmented Intent Clarification

Dieser Beitrag stellt einen dreistufigen Forschungsrahmen vor, der eine sensitivitätsbewusste, retrieval-augmentierte Intent-Klärung entwickelt, um in sensiblen Domänen wie Gesundheitswesen und Recht den Schutz vertraulicher Daten vor Angriffen bei gleichzeitiger Aufrechterhaltung der Systemnützlichkeit zu gewährleisten.

Maik Larooij2026-03-09🤖 cs.AI

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Diese Studie analysiert die inneren Aktivierungen von leichten Vision-Language-Modellen für den autonomen Fahrverkehr, um festzustellen, dass visuelle Konzepte wie Objektpräsenz linear kodiert sind, während räumliche Eigenschaften oft nur implizit vorliegen, und identifiziert dabei zwei Hauptfehlermodi: eine wahrgenommene Unfähigkeit, visuelle Informationen zu erfassen, sowie eine kognitive Unfähigkeit, diese mit Sprachsemantik korrekt abzugleichen.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Die Arbeit stellt TempoSyncDiff vor, einen effizienten, auf Wissenstransfer basierenden Latent-Diffusionsrahmen für audiogetriebene sprechende Köpfe, der durch Few-Step-Inferenz, Identitätsanker und zeitliche Regularisierung eine niedrige Latenz bei gleichzeitiger Verbesserung der temporalen Stabilität und Synchronisation ermöglicht.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

Die Studie stellt PyPDDLEngine als Open-Source-PDDL-Simulationsengine vor und zeigt, dass agentic LLM-Planung zwar im Vergleich zur direkten Planung einen geringen Erfolgszuwachs bei deutlich höheren Kosten erzielt, jedoch aufgrund fehlender externer Verifizierung im PDDL-Kontext hinter klassischen Planern zurückbleibt.

Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Die Studie zeigt, dass aktuelle Large Language Models zwar in der Lage sind, österreichische A-Level-German-Aufsätze anhand von Bewertungsrastern zu analysieren, jedoch mit einer Übereinstimmungsrate von maximal 40,6 % bei Teilaspekten und nur 32,8 % bei der Endnote noch nicht die notwendige Genauigkeit für den realen Einsatz in der automatisierten Benotung erreichen.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Aggregative Semantics for Quantitative Bipolar Argumentation Frameworks

Diese Arbeit stellt eine neue Familie von aggregativen Semantiken für quantitative bipolar Argumentationsframeworks vor, die durch eine dreistufige, getrennte Aggregation von Angreifern und Unterstützern eine parametrisierbare und interpretierbare Berechnung von Argumentstärken ermöglicht.

Yann Munro, Isabelle Bloch, Marie-Jeanne Lesot2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

Die Arbeit stellt eine neue Aufgabe namens „Emotionally Continuous Talking Face Generation" (EC-TFG) und ein entsprechendes Modell (TIE-TFG) vor, die es ermöglichen, realistische sprechende Gesichter zu erzeugen, deren Mimik sich kontinuierlich und fließend an dynamische emotionale Veränderungen im Text anpasst.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lifelong Embodied Navigation Learning

Das Paper stellt Uni-Walker vor, ein lifelong-learning-Framework für Embodied-Navigation-Agenten, das mittels DE-LoRA, Wissensvererbung und orthogonalen Expertensubräumen künftige Katastrophisches Vergessen verhindert und die Fähigkeit zur kontinuierlichen Anpassung an neue Szenarien und Instruktionsstile verbessert.

Xudong Wang, Jiahua Dong, Baichen Liu, Qi Lyu, Lianqing Liu, Zhi Han2026-03-09🤖 cs.AI

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

Der Paper stellt StreamVoiceAnon+ vor, ein Streaming-Verfahren zur Sprecheranonymisierung, das durch eine zweistufige Feinabstimmung mit neutralen Emotionspaaren und frame-basierter emotionaler Distillation die Emotionserhaltung signifikant verbessert, ohne die Latenz oder Intelligibilität zu beeinträchtigen.

Nikita Kuzmin, Kong Aik Lee, Eng Siong Chng2026-03-09🤖 cs.AI

Offline Materials Optimization with CliqueFlowmer

Dieses Paper stellt CliqueFlowmer vor, ein neuartiges, auf Offline-Modell-basierter Optimierung (MBO) und Transformer-Flow-Generierung aufsetzendes Verfahren zur computergestützten Materialentdeckung, das im Vergleich zu herkömmlichen generativen Basismodellen überlegene Ergebnisse bei der Suche nach Materialien mit optimierten Eigenschaften erzielt.

Jakub Grudzien Kuba, Benjamin Kurt Miller, Sergey Levine, Pieter Abbeel2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Diese Studie zeigt, dass durch unsupervisedes Weiter-Training mit domänenspezifischen Texten simulierte unterschiedliche Erfahrungen die Persönlichkeit von Large Language Models prägen und dabei eine „Unterdrückungsvorteil"-Hypothese aufdecken, wonach reduzierte soziale Merkmale die komplexe reasoning-Leistung steigern, was einen Weg für gezieltes „Personality Engineering" eröffnet.

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

Die vorgestellte Arbeit schlägt eine Pipeline vor, die Large Language Models und einen neuro-symbolischen SAT-Löser kombiniert, um implizite Prämissen in Enthymemen zu identifizieren, natürliche Sprache in logische Formeln zu übersetzen und deren logische Folgerung systematisch zu überprüfen.

Xuyao Feng, Anthony Hunter2026-03-09🤖 cs.AI

A Hazard-Informed Data Pipeline for Robotics Physical Safety

Der Bericht stellt ein strukturiertes Framework für die physische Sicherheit von Robotern vor, das klassische Risikotechnik mit modernen Machine-Learning-Pipelines verbindet, indem es durch explizite Asset-Deklaration, systematische Schwachstellenanalyse und hazardgesteuerte synthetische Daten eine formale Hazard-Ontologie für das Erlernen von Sicherheitsgrenzen ermöglicht.

Alexei Odinokov, Rostislav Yavorskiy2026-03-09🤖 cs.AI

A Causal Graph Approach to Oppositional Narrative Analysis

Die Arbeit stellt ein graphbasiertes Framework vor, das oppositionelle Narrative durch die Modellierung von Entitätsinteraktionen und kausaler Schätzung auf Knotenebene analysiert und dabei eine überlegene Klassifizierungsgenauigkeit sowie interpretierbare Ergebnisse im Vergleich zu herkömmlichen Black-Box-Methoden erzielt.

Diego Revilla, Martin Fernandez-de-Retana, Lingfeng Chen, Aritz Bilbao-Jayo, Miguel Fernandez-de-Retana2026-03-09🤖 cs.AI

Partial Policy Gradients for RL in LLMs

Die vorgestellte Arbeit schlägt einen neuen Ansatz für Policy-Gradients vor, bei dem durch die Optimierung von Teilmengen zukünftiger Belohnungen einfachere und zuverlässigere Lernstrategien ermöglicht werden, die sich in verschiedenen Konversationsaufgaben als vorteilhaft erweisen.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Die Arbeit stellt Place-it-R1 vor, ein End-zu-End-Framework, das die Chain-of-Thought-Reasoning-Fähigkeiten von Multimodalen Large Language Models nutzt, um physikalisch konsistente und umweltbewusste Video-Objekteinfügungen durch einen iterativen „Denken-dann-Einfügen"-Prozess zu ermöglichen.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

Der Artikel beweist, dass Predictive Coding Graphs (PCGs) eine mathematische Obermenge von Feedforward-Neuronalen Netzen darstellen und sie dadurch stärker in den Bereich des maschinellen Lernens einordnen.

Björn van Zwol2026-03-09🤖 cs.AI

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Die Studie stellt VLM-RobustBench vor, einen umfassenden Benchmark, der zeigt, dass aktuelle Vision-Language-Modelle trotz starker semantischer Fähigkeiten gegenüber räumlichen Verzerrungen und Resampling-Problemen besonders anfällig sind, was neue Evaluierungs- und Trainingsansätze erfordert.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Diese Studie zeigt, dass Ensemble-Graph-Neural-Networks für die probabilistische Vorhersage der Meeresoberflächentemperatur durch räumlich kohärente Eingangsstörungen (z. B. Perlin-Rauschen) eine gut kalibrierte Unsicherheitsquantifizierung erreichen, ohne zusätzliche Trainingskosten zu verursachen.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Die Studie RAPTOR zeigt, dass für die robuste Erkennung von Audio-Deepfakes über verschiedene Domänen hinweg die Art des SSL-Vor-Trainings (insbesondere multilinguales HuBERT) entscheidender ist als die reine Modellgröße, wobei kompakte Modelle mit 100 Millionen Parametern kommerzielle Großsysteme übertreffen und eine stabilere Kalibrierung unter Störungen aufweisen.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss2026-03-09🤖 cs.AI

← Zurück Weiter →