cs Arbeiten | Gist.Science

mAVE: A Watermark for Joint Audio-Visual Generation Models

Die Arbeit stellt mAVE vor, ein neuartiges Wasserzeichen-Verfahren für gemeinsame Audio-Visual-Generierungsmodelle, das durch kryptografische Verschränkung der latenten Räume von Audio und Video eine robuste Abwehr gegen Swap-Angriffe gewährleistet und dabei die Modellleistung vollständig erhält.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Diese Studie stellt einen multidimensionalen Evaluierungsrahmen vor, der zeigt, dass zwar Small Language Models unter 3 Milliarden Parametern für die Generierung von Architekturentscheidungen stark von Fine-Tuning profitieren, jedoch erst Modelle oberhalb dieser Schwelle robuste Zero-Shot-Fähigkeiten aufweisen und eine hohe semantische Vielfalt oft mit Halluzinationen einhergeht.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son Ha2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Die Autoren stellen eine Methode vor, die durch die Kombination von überwachtem Fine-Tuning eines Vision-Language-Action-Modells und einer menschlichen Feedback-Reinforcement-Learning-Strategie natürliche, kontextangepasste Gesichtsausdrücke für dyadische Interaktionen erzeugt, die menschlichen Präferenzen entsprechen.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Randomise Alone, Reach as a Team

Diese Arbeit untersucht kooperative Graphspiele mit verteiltem Zufall, bei denen Spieler keine gemeinsame Zufallsquelle teilen, und zeigt, dass für das Schwellenwertproblem memoryless Strategien ausreichen, während das fast-sichere Erreichbarkeitsproblem NP-vollständig ist, was zur Entwicklung der Logik IRATL und eines entsprechenden Löser-Algorithmus führt.

Léonard Brice, Thomas A. Henzinger, Alipasha Montaseri, Ali Shafiee, K. S. Thejaswini2026-03-10💻 cs

ACLM: ADMM-Based Distributed Model Predictive Control for Collaborative Loco-Manipulation

Diese Arbeit stellt einen auf dem ADMM-Verfahren basierenden verteilten modellprädiktiven Regelungsansatz vor, der die kollaborative Fortbewegung und Manipulation schwerer Lasten durch ein Team von Laufrobotern mit Manipulatoren in komplexen Umgebungen durch effiziente Zerlegung des globalen Optimierungsproblems in parallele Teilprobleme ermöglicht.

Ziyi Zhou, Pengyuan Shu, Ruize Cao, Yuntian Zhao, Ye Zhao2026-03-10💻 cs

Towards Scalable Probabilistic Human Motion Prediction with Gaussian Processes for Safe Human-Robot Collaboration

Die vorgestellte Arbeit präsentiert einen skalierbaren, probabilistischen Ansatz zur Vorhersage menschlicher Bewegungen mittels strukturierter Multi-Task-Variations-Gaußscher Prozesse, der auf dem Human3.6M-Datensatz eine hohe Genauigkeit bei gleichzeitig zuverlässiger Unsicherheitsquantifizierung und effizientem Ressourceneinsatz für den Echtzeit-Einsatz in der sicheren Mensch-Roboter-Kollaboration erreicht.

Jinger Chong, Xiaotong Zhang, Kamal Youcef-Toumi2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

Der Artikel stellt NuNext vor, eine neue Methode, die die Nukleusdetektion in der Histopathologie durch Umformulierung als Next-Point-Detektion mittels eines multimodalen Large Language Models mit zweistufigem Training (überwachtes Lernen mit räumlich bewusster weicher Supervision und Verstärkungslernen) löst und dabei bestehende Probleme wie komplexe Nachverarbeitung und Klassenungleichgewicht überwindet.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Diese Studie untersucht, ob große Sprachmodelle in der Lage sind, unter Berücksichtigung von Strukturkonstrukten des Unity-Engines und auf Basis von Ziel-spielbaren Mustern (Goal Playable Patterns) spielbare Spiele zu synthetisieren, und identifiziert dabei insbesondere Probleme der semantischen Verankerung und Code-Hygiene als Hauptengpässe für den Erfolg.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

AutoUE: Automated Generation of 3D Games in Unreal Engine via Multi-Agent Systems

Das Paper stellt AutoUE vor, ein Multi-Agenten-System, das mithilfe von Retrieval-Augmented Generation und automatisierten Testpipelines komplexe 3D-Spiele in Unreal Engine end-to-end generiert und dabei Tool-Halluzinationen minimiert sowie die Code-Robustheit sicherstellt.

Lei Yin, Wentao Cheng, Zhida Qin, Tianyu Huang, Yidong Li, Gangyi Ding2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

Die Arbeit stellt den PSAD-Framework vor, der durch eine semi-autoregressive Generierung, Online-Wissensdestillation und ein Benutzerprofil-Netzwerk sowohl die Effizienz als auch die Leistung personalisierter Reranking-Modelle in Empfehlungssystemen verbessert.

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

Die Studie zeigt, dass aktuelle Vision Language Models trotz starker textueller Vorurteile systematisch daran scheitern, physikalische Transformationen zu verstehen und invariante Eigenschaften über dynamische Szenen hinweg zu erhalten.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Learning From Failures: Efficient Reinforcement Learning Control with Episodic Memory

Die Arbeit stellt FEMA (Failure Episodic Memory Alert) vor, eine Technik, die durch das Speichern und Abrufen von Fehlerepisoden in einem episodischen Gedächtnis verhindert, dass Roboter wiederholt in instabile Zustände geraten, und so die Sample-Effizienz des Reinforcement Learning bei anspruchsvollen Kontaktdynamiken erheblich verbessert.

Chenyang Miao2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

Die Arbeit stellt S-PCL vor, ein effizientes selbstüberwachtes Lernframework für die Darstellung von Röntgenbildern der Brust, das durch semantisch partitionierte Kontrastive Lernverfahren ohne aufwendige Datenaugmentierung oder Decoder eine überlegene Genauigkeit bei geringerer Rechenkomplexität erreicht.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

Das Papier stellt aCAPTCHA vor, ein neues Sicherheitsverfahren, das durch zeitbasierte, asymmetrische Härte in der Verarbeitung natürlicher Sprache autonomen KI-Agenten, Skripten und Menschen unterscheidet, um eine infrastrukturneutralen Zugangskontrolle für Internetdienste zu ermöglichen.

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

Die Arbeit stellt TIQA vor, ein neues Bewertungssystem für die Textqualität in generierten Bildern, das durch die Einführung von MOS-markierten Datensätzen und der leichten Methode ANTIQA eine deutlich bessere Übereinstimmung mit menschlichen Urteilen erreicht als bestehende OCR- oder VLM-basierte Ansätze und sich als wertvoll für das Filtern und Neu-Ranking von Bildgenerierungen erweist.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

Dieses Paper stellt Inter-Image Pixel Shuffling (IPS) vor, eine neuartige Methode, die Multi-Fokus-Bildfusion ohne reale Trainingsdaten ermöglicht, indem sie das Problem als Pixelklassifikation umformuliert und ein hybrides Netzwerk aus CNNs und State-Space-Modellen nutzt, um qualitativ hochwertige, scharfe Bilder zu erzeugen.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Efficient Trajectory Optimization for Autonomous Racing via Formula-1 Data-Driven Initialization

Diese Arbeit stellt eine lernbasierte Initialisierungsstrategie vor, die mithilfe eines neuronalen Netzes und realer Formel-1-Telemetriedaten expertenähnliche Rennlinien vorhersagt, um die Konvergenzgeschwindigkeit und Effizienz von Trajektorienoptimierungslösern für autonomes Rennfahren signifikant zu verbessern.

Samir Shehadeh, Lukas Kutsch, Nils Dengler, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Diese Arbeit stellt einen multimodalen Datensatz mit Audio- und Vibrationssignalen von einem einstufigen Kettenförderer vor, der unter verschiedenen Betriebsbedingungen und mit realistischen Störgeräuschen erfasst wurde, um robuste Verfahren zur industriellen Fehlererkennung und -klassifizierung zu ermöglichen.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming Li2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Die Arbeit stellt EyExIn vor, ein dateneffizientes Framework, das durch eine Deep Expert Injection-Mechanik und eine Expert-Aware Dual-Stream-Architektur die Lücken in der visuellen Wahrnehmung und dem logischen Schlussfolgern von großen multimodalen Modellen schließt, um durch die Verankerung von spezialisiertem ophthalmologischem Expertenwissen eine präzise und vertrauenswürdige Diagnose von Netzhauterkrankungen zu ermöglichen.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

More Than 1v1: Human-AI Alignment in Early Developmental Communities with Multimodal LLMs

Die Studie argumentiert, dass die Ausrichtung multimodaler Großsprachenmodelle in frühkindlichen Entwicklungsprozessen nicht als individuelles Optimierungsproblem, sondern als ein gemeinschaftlich gesteuerter Prozess verstanden werden sollte, der durch eine mehrschichtige Abstimmung zwischen Experten, Fachkräften und Familien gewährleistet wird.

Weiyan Shi, Kenny Tsu Wei Choo2026-03-10💻 cs

← Zurück Weiter →