cs Arbeiten | Gist.Science

AutoUE: Automated Generation of 3D Games in Unreal Engine via Multi-Agent Systems

Das Paper stellt AutoUE vor, ein Multi-Agenten-System, das mithilfe von Retrieval-Augmented Generation und automatisierten Testpipelines komplexe 3D-Spiele in Unreal Engine end-to-end generiert und dabei Tool-Halluzinationen minimiert sowie die Code-Robustheit sicherstellt.

Lei Yin, Wentao Cheng, Zhida Qin, Tianyu Huang, Yidong Li, Gangyi Ding2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

Die Arbeit stellt den PSAD-Framework vor, der durch eine semi-autoregressive Generierung, Online-Wissensdestillation und ein Benutzerprofil-Netzwerk sowohl die Effizienz als auch die Leistung personalisierter Reranking-Modelle in Empfehlungssystemen verbessert.

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

Die Studie zeigt, dass aktuelle Vision Language Models trotz starker textueller Vorurteile systematisch daran scheitern, physikalische Transformationen zu verstehen und invariante Eigenschaften über dynamische Szenen hinweg zu erhalten.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Learning From Failures: Efficient Reinforcement Learning Control with Episodic Memory

Die Arbeit stellt FEMA (Failure Episodic Memory Alert) vor, eine Technik, die durch das Speichern und Abrufen von Fehlerepisoden in einem episodischen Gedächtnis verhindert, dass Roboter wiederholt in instabile Zustände geraten, und so die Sample-Effizienz des Reinforcement Learning bei anspruchsvollen Kontaktdynamiken erheblich verbessert.

Chenyang Miao2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

Die Arbeit stellt S-PCL vor, ein effizientes selbstüberwachtes Lernframework für die Darstellung von Röntgenbildern der Brust, das durch semantisch partitionierte Kontrastive Lernverfahren ohne aufwendige Datenaugmentierung oder Decoder eine überlegene Genauigkeit bei geringerer Rechenkomplexität erreicht.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

Das Papier stellt aCAPTCHA vor, ein neues Sicherheitsverfahren, das durch zeitbasierte, asymmetrische Härte in der Verarbeitung natürlicher Sprache autonomen KI-Agenten, Skripten und Menschen unterscheidet, um eine infrastrukturneutralen Zugangskontrolle für Internetdienste zu ermöglichen.

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

Die Arbeit stellt TIQA vor, ein neues Bewertungssystem für die Textqualität in generierten Bildern, das durch die Einführung von MOS-markierten Datensätzen und der leichten Methode ANTIQA eine deutlich bessere Übereinstimmung mit menschlichen Urteilen erreicht als bestehende OCR- oder VLM-basierte Ansätze und sich als wertvoll für das Filtern und Neu-Ranking von Bildgenerierungen erweist.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

Dieses Paper stellt Inter-Image Pixel Shuffling (IPS) vor, eine neuartige Methode, die Multi-Fokus-Bildfusion ohne reale Trainingsdaten ermöglicht, indem sie das Problem als Pixelklassifikation umformuliert und ein hybrides Netzwerk aus CNNs und State-Space-Modellen nutzt, um qualitativ hochwertige, scharfe Bilder zu erzeugen.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Efficient Trajectory Optimization for Autonomous Racing via Formula-1 Data-Driven Initialization

Diese Arbeit stellt eine lernbasierte Initialisierungsstrategie vor, die mithilfe eines neuronalen Netzes und realer Formel-1-Telemetriedaten expertenähnliche Rennlinien vorhersagt, um die Konvergenzgeschwindigkeit und Effizienz von Trajektorienoptimierungslösern für autonomes Rennfahren signifikant zu verbessern.

Samir Shehadeh, Lukas Kutsch, Nils Dengler, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Diese Arbeit stellt einen multimodalen Datensatz mit Audio- und Vibrationssignalen von einem einstufigen Kettenförderer vor, der unter verschiedenen Betriebsbedingungen und mit realistischen Störgeräuschen erfasst wurde, um robuste Verfahren zur industriellen Fehlererkennung und -klassifizierung zu ermöglichen.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming Li2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Die Arbeit stellt EyExIn vor, ein dateneffizientes Framework, das durch eine Deep Expert Injection-Mechanik und eine Expert-Aware Dual-Stream-Architektur die Lücken in der visuellen Wahrnehmung und dem logischen Schlussfolgern von großen multimodalen Modellen schließt, um durch die Verankerung von spezialisiertem ophthalmologischem Expertenwissen eine präzise und vertrauenswürdige Diagnose von Netzhauterkrankungen zu ermöglichen.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

More Than 1v1: Human-AI Alignment in Early Developmental Communities with Multimodal LLMs

Die Studie argumentiert, dass die Ausrichtung multimodaler Großsprachenmodelle in frühkindlichen Entwicklungsprozessen nicht als individuelles Optimierungsproblem, sondern als ein gemeinschaftlich gesteuerter Prozess verstanden werden sollte, der durch eine mehrschichtige Abstimmung zwischen Experten, Fachkräften und Familien gewährleistet wird.

Weiyan Shi, Kenny Tsu Wei Choo2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

Das Paper stellt AutoSelect vor, eine Methode zur automatischen Auswahl visueller Tokens in Vision-Language-Modellen durch ein Rausch-Gating-Verfahren, die ohne zusätzliche Verlustfunktionen auskommt und bei minimaler Latenz die Inferenzgeschwindigkeit signifikant steigert, ohne die Genauigkeit zu beeinträchtigen.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs

DexKnot: Generalizable Visuomotor Policy Learning for Dexterous Bag-Knotting Manipulation

Das Paper stellt DexKnot vor, ein Framework, das durch die Kombination von Schlüsselpunkt-Affordanzen mit Diffusions-Policies eine generalisierbare visuomotorische Steuerung für das Knoten deformierbarer Plastiktaschen ermöglicht.

Jiayuan Zhang, Ruihai Wu, Haojun Chen, Yuran Wang, Yifan Zhong, Ceyao Zhang, Yaodong Yang, Yuanpei Chen2026-03-10💻 cs

Model-based thermal drift compensation for high-precision hexapod robot actuators

Diese Studie stellt ein modellbasiertes Verfahren vor, das durch die Verknüpfung der thermischen Ausdehnung eines Hexapod-Aktors mit Oberflächentemperaturen eine experimentell validierte Korrektur von thermischen Drifts um mehr als 80 % ermöglicht.

Clément Robert, Alain Vissiere, Olivier Company, Pierre Noire, Thierry Roux, Sébastien Krut2026-03-10💻 cs

PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection

Die Arbeit stellt PDD (Manifold-Prior Diverse Distillation) vor, ein neuartiges Framework für die medizinische Anomalieerkennung, das durch die Vereinigung komplementärer Lehrer-Modelle in einem gemeinsamen Manifold und eine diverse Wissensdistillation in zwei Schüler-Netzwerke signifikant höhere Genauigkeiten als bestehende State-of-the-Art-Methoden auf verschiedenen medizinischen Datensätzen erzielt.

Xijun Lu, Hongying Liu, Fanhua Shang, Yanming Hui, Liang Wan2026-03-10💻 cs

Tutorial on Aided Inertial Navigation Systems: A Modern Treatment Using Lie-Group Theoretical Methods

Dieser Tutorial-Artikel bietet eine anwendungsorientierte Einführung in gestützte Inertialnavigationssysteme, indem er eine geometrische Formulierung auf Basis der verallgemeinerten Special-Euclidean-Gruppe SE₂(3) verwendet, um die Fusion von Inertialmessungen mit Hilfsdaten unter expliziter Berücksichtigung von Invarianz und Symmetrie zu erläutern und dabei moderne Erweiterungen wie äquivariante Filtermethoden vorzustellen.

Soulaimane Berkane2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

Das Paper stellt CanoVerse vor, einen neuartigen, hochskalierbaren Datensatz mit 320.000 kanonisch ausgerichteten 3D-Objekten und einem effizienten Framework zur automatisierten Ausrichtung, der die Stabilität der 3D-Generierung verbessert und präzise, posekonsistente Semantik für verschiedene Anwendungen ermöglicht.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Die Arbeit stellt LiveWorld vor, ein neues Framework für generative Videoweltmodelle, das das Problem der „außerhalb des Sichtfelds liegenden Dynamik" löst, indem es einen persistenten globalen Zustand einführt, der es Objekten erlaubt, auch außerhalb des Kamerablickfelds weiterzuentwickeln und so eine konsistente 4D-Welt-Simulation zu ermöglichen.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs

Transition State Theory for Network Dynamics

Diese Arbeit stellt einen Rahmen vor, der die Transition State Theory mit der dynamischen Netzwerkanalyse verbindet, um diskrete strukturelle Veränderungen wie Fraktionsneuausrichtungen in kleinen Gruppen zu charakterisieren und unter bestimmten Annahmen sogar aus Querschnittsdaten vorherzusagen.

Carter T. Butts2026-03-10💻 cs

← Zurück Weiter →