Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Diese Studie stellt einen multidimensionalen Evaluierungsrahmen vor, der zeigt, dass zwar Small Language Models unter 3 Milliarden Parametern für die Generierung von Architekturentscheidungen stark von Fine-Tuning profitieren, jedoch erst Modelle oberhalb dieser Schwelle robuste Zero-Shot-Fähigkeiten aufweisen und eine hohe semantische Vielfalt oft mit Halluzinationen einhergeht.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son Ha2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Die Autoren stellen eine Methode vor, die durch die Kombination von überwachtem Fine-Tuning eines Vision-Language-Action-Modells und einer menschlichen Feedback-Reinforcement-Learning-Strategie natürliche, kontextangepasste Gesichtsausdrücke für dyadische Interaktionen erzeugt, die menschlichen Präferenzen entsprechen.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

ACLM: ADMM-Based Distributed Model Predictive Control for Collaborative Loco-Manipulation

Diese Arbeit stellt einen auf dem ADMM-Verfahren basierenden verteilten modellprädiktiven Regelungsansatz vor, der die kollaborative Fortbewegung und Manipulation schwerer Lasten durch ein Team von Laufrobotern mit Manipulatoren in komplexen Umgebungen durch effiziente Zerlegung des globalen Optimierungsproblems in parallele Teilprobleme ermöglicht.

Ziyi Zhou, Pengyuan Shu, Ruize Cao, Yuntian Zhao, Ye Zhao2026-03-10💻 cs

Towards Scalable Probabilistic Human Motion Prediction with Gaussian Processes for Safe Human-Robot Collaboration

Die vorgestellte Arbeit präsentiert einen skalierbaren, probabilistischen Ansatz zur Vorhersage menschlicher Bewegungen mittels strukturierter Multi-Task-Variations-Gaußscher Prozesse, der auf dem Human3.6M-Datensatz eine hohe Genauigkeit bei gleichzeitig zuverlässiger Unsicherheitsquantifizierung und effizientem Ressourceneinsatz für den Echtzeit-Einsatz in der sicheren Mensch-Roboter-Kollaboration erreicht.

Jinger Chong, Xiaotong Zhang, Kamal Youcef-Toumi2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

Der Artikel stellt NuNext vor, eine neue Methode, die die Nukleusdetektion in der Histopathologie durch Umformulierung als Next-Point-Detektion mittels eines multimodalen Large Language Models mit zweistufigem Training (überwachtes Lernen mit räumlich bewusster weicher Supervision und Verstärkungslernen) löst und dabei bestehende Probleme wie komplexe Nachverarbeitung und Klassenungleichgewicht überwindet.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Diese Studie untersucht, ob große Sprachmodelle in der Lage sind, unter Berücksichtigung von Strukturkonstrukten des Unity-Engines und auf Basis von Ziel-spielbaren Mustern (Goal Playable Patterns) spielbare Spiele zu synthetisieren, und identifiziert dabei insbesondere Probleme der semantischen Verankerung und Code-Hygiene als Hauptengpässe für den Erfolg.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

Die Arbeit stellt TIQA vor, ein neues Bewertungssystem für die Textqualität in generierten Bildern, das durch die Einführung von MOS-markierten Datensätzen und der leichten Methode ANTIQA eine deutlich bessere Übereinstimmung mit menschlichen Urteilen erreicht als bestehende OCR- oder VLM-basierte Ansätze und sich als wertvoll für das Filtern und Neu-Ranking von Bildgenerierungen erweist.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Efficient Trajectory Optimization for Autonomous Racing via Formula-1 Data-Driven Initialization

Diese Arbeit stellt eine lernbasierte Initialisierungsstrategie vor, die mithilfe eines neuronalen Netzes und realer Formel-1-Telemetriedaten expertenähnliche Rennlinien vorhersagt, um die Konvergenzgeschwindigkeit und Effizienz von Trajektorienoptimierungslösern für autonomes Rennfahren signifikant zu verbessern.

Samir Shehadeh, Lukas Kutsch, Nils Dengler, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Die Arbeit stellt EyExIn vor, ein dateneffizientes Framework, das durch eine Deep Expert Injection-Mechanik und eine Expert-Aware Dual-Stream-Architektur die Lücken in der visuellen Wahrnehmung und dem logischen Schlussfolgern von großen multimodalen Modellen schließt, um durch die Verankerung von spezialisiertem ophthalmologischem Expertenwissen eine präzise und vertrauenswürdige Diagnose von Netzhauterkrankungen zu ermöglichen.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs