cs Arbeiten | Gist.Science

ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

Das Paper stellt ViLAM vor, eine Methode, die durch Wissensdistillation von großen Vision-Sprach-Modellen in räumliche Aufmerksamkeitskarten soziale Navigationsfähigkeiten in Roboter integriert und damit die Erfolgswahrscheinlichkeit bei der sozialen Roboternavigation im Vergleich zu bestehenden Methoden um 14,2 % bis 50 % steigert.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh Manocha2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

Die Arbeit stellt Snapmoji vor, ein System zur sofortigen Generierung animierbarer 3D-Avatare aus Selfies, das durch eine neuartige Gaußsche Domänenanpassung und einen Dual-Stylisierungsprozess die Identität des Nutzers bewahrt und eine effiziente mobile Darstellung ermöglicht.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

Engineering Systems for Data Analysis Using Interactive Structured Inductive Programming

Das Paper stellt iProg vor, ein Werkzeug für interaktives strukturiertes induktives Programmieren, das durch eine zweistufige Kollaboration zwischen Mensch und KI (Zerlegung in Datenflussdiagramme und Codegenerierung) unter Nutzung eines Intelligibilitätsprotokolls wissenschaftliche Datenanalysesysteme schneller, qualitativ hochwertiger und zuverlässiger entwickelt als herkömmliche Low-Code- oder No-Code-Ansätze.

Shraddha Surana, Ashwin Srinivasan, Michael Bain2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Die Arbeit stellt SceneEval vor, ein Evaluierungsframework mit einem neuen Benchmark und feinkörnigen Metriken, das die semantische Kohärenz und Plausibilität textbasiert generierter 3D-Innenszenen umfassend bewertet und dabei sowohl explizite Benutzeranforderungen als auch implizite Erwartungen wie Stabilität und Navigierbarkeit berücksichtigt.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Die Autoren schlagen eine Methode vor, die durch das Hinzufügen von Störungen zu alten Feature-Prototypen die strengen Alignierungsbeschränkungen beim Backward-Compatible Learning lockert, um so die Diskriminierungsfähigkeit neuer Retrieval-Modelle zu erhalten, ohne auf zeitaufwändige Backfilling-Prozesse zurückgreifen zu müssen.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

Privacy Enhanced QKD Networks: Zero Trust Relay Architecture based on Homomorphic Encryption

Diese Arbeit stellt eine Zero-Trust-Relay-Architektur für QKD-Netzwerke vor, die durch den Einsatz von Fully Homomorphic Encryption (FHE) die Notwendigkeit vertrauenswürdiger Relaisknoten eliminiert, indem sie die Umverschlüsselung von Schlüsseln ohne Freilegung von Klartextdaten ermöglicht und somit die Sicherheit und Skalierbarkeit bestehender Infrastrukturen gemäß ETSI-Standards erheblich verbessert.

Aitor Brazaola-Vicario, Oscar Lage, Julen Bernabé-Rodríguez + 2 more2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Diese Arbeit stellt eine Methode zur robusten Rekonstruktion von zwei Händen aus monokularen Bildern vor, die heterogene 2D-Strukturpriors aus Vision-Modellen mit einem kollisionsfreien Diffusionsmodell kombiniert, um Interaktionsfehler und Handdurchdringungen auch bei starken Verdeckungen zu vermeiden.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

MediTools -- Medical Education Powered by LLMs

Das Forschungsprojekt MediTools nutzt Large Language Models, um die medizinische Ausbildung durch interaktive Tools wie dermatologische Fall-Simulationen, KI-gestützte Literaturrecherche und Nachrichten-Zusammenfassungen zu revolutionieren und klinische Fähigkeiten zu verbessern.

Amr Alshatnawi, Remi Sampaleanu, David Liebovitz2026-03-10💻 cs

Medium Access for Push-Pull Data Transmission in 6G Wireless Systems

Dieser Artikel stellt eine Taxonomie für Push- und Pull-Kommunikation in 6G-Systemen vor, entwickelt zielgerichtete MAC-Protokoll-Richtlinien und skizziert einen Rahmen für deren koexistierende Integration in O-RAN-Architekturen.

Shashi Raj Pandey, Fabio Saggese, Junya Shiraishi, Federico Chiariotti, Petar Popovski2026-03-10💻 cs

Point-based Instance Completion with Scene Constraints

Die Autoren stellen ein neuartiges, auf Punktwolken basierendes Instanzvollendungsmodell vor, das durch die Integration von Szenenbeschränkungen über einen Cross-Attention-Mechanismus und die Einführung des neuen Datensatzes ScanWCF Objekte in komplexen Szenen präziser und plausibler vervollständigt als bisherige Methoden.

Wesley Khademi, Li Fuxin2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

Die vorgestellte Arbeit stellt LEL vor, ein Ensemble-Lernframework, das durch Lipschitz-Stetigkeitsbeschränkungen in Transformer-Architekturen die Stabilität, Genauigkeit und Robustheit der EEG-basierten Emotionserkennung innerhalb einzelner Probanden signifikant verbessert.

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

GeoNav: Empowering MLLMs with dual-scale geospatial reasoning for language-goal aerial navigation

Der Artikel stellt GeoNav vor, einen multimodalen Agenten, der durch die Kombination von globalen kognitiven Karten und lokalen Szenengraphen sowie einem räumlichen Chain-of-Thought-Mechanismus MLLMs befähigt, die Erfolgsrate bei der sprachgesteuerten UAV-Navigation in komplexen städtischen Umgebungen signifikant zu steigern.

Haotian Xu, Yue Hu, Chen Gao, Zhengqiu Zhu, Yong Zhao, Yong Li, Quanjun Yin2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

Die Arbeit stellt einen auf die Aufgabe ausgerichteten semantischen Kompressionsrahmen vor, der mittels eines orthogonally eingeschränkten variationalen Informationsflaschenhals-Encoders (O-VIB) redundante Merkmale eliminiert, um mobile Plattformen bei der präzisen visuellen Lokalisierung in GPS-limitierten städtischen Umgebungen unter strengen Bandbreitenbeschränkungen zu unterstützen.

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

Smart placement, faster robots-a comparison of algorithms for robot base-pose optimization

Die Studie vergleicht Bayesian Optimization, exhaustive Search, genetische Algorithmen und stochastischen Gradientenabstieg zur Optimierung der Roboterbasisposition und zeigt, dass alle Methoden die Zykluszeit reduzieren, wobei stochastischer Gradientenabstieg die höchste Erfolgsrate und genetische Algorithmen die niedrigsten Endkosten erzielen.

Matthias Mayer, Matthias Althoff2026-03-10💻 cs

SFIBA: Spatial-based Full-target Invisible Backdoor Attacks

Die Arbeit stellt SFIBA vor, einen räumlich basierten, unsichtbaren Backdoor-Angriff, der durch die Kombination von Frequenzbereichs-Methoden und morphologischen Einschränkungen eine spezifische und schwer erkennbare Mehrziel-Manipulation von Deep-Learning-Modellen ermöglicht.

Yangxu Yin, Honglong Chen, Yudong Gao, Peng Sun, Zhishuai Li, Weifeng Liu2026-03-10💻 cs

Holistic Optimization of Modular Robots

Diese Arbeit stellt einen holistischen Optimierungsansatz vor, der die Zusammensetzung, Basisposition und Trajektorie modularer Roboter gemeinsam optimiert, um die Zykluszeit industrieller Aufgaben signifikant zu verkürzen und die Lösbarkeit sowie praktische Einsetzbarkeit im Vergleich zu isolierten Methoden erheblich zu steigern.

Matthias Mayer, Matthias Althoff2026-03-10💻 cs

A Coordinated Routing Approach for Enhancing Bus Timeliness and Travel Efficiency in Mixed-Traffic Environment

Diese Studie stellt einen koordinierten Routing-Ansatz vor, der mithilfe von Echtzeitdaten und Simulationen in SUMO nachweist, wie der dynamische Umleitung von vernetzten und automatisierten Fahrzeugen (CAVs) in Mischverkehrsphasen die Pünktlichkeit von Bussen in eigenen Fahrspuren verbessert und gleichzeitig die Reiseeffizienz der CAVs steigert.

Tanlu Liang, Ting Bai, Andreas A. Malikopoulos2026-03-10💻 cs

Can LLM-Simulated Practice and Feedback Upskill Human Counselors? A Randomized Study with 90+ Novice Counselors

Eine randomisierte Studie mit über 90 Anfängern zeigt, dass ein KI-gestütztes Training, das Simulationen mit strukturiertem Feedback kombiniert, im Vergleich zu reiner Übung die klientenzentrierten Mikrokompetenzen und die Empathie von angehenden Beratern signifikant verbessert.

Ryan Louie, Raj Sanjay Shah, Ifdita Hasan Orney, Juan Pablo Pacheco, Emma Brunskill, Diyi Yang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

Die Studie stellt DeepSparse, das erste Foundation-Modell für die Rekonstruktion von Sparse-View-CBCT-Bildern, vor, das durch die innovative DiCE-Netzwerkarchitektur und das HyViP-Vorabtrainingsframework eine überlegene Bildqualität bei reduzierter Strahlenbelastung und verbesserter Generalisierbarkeit im Vergleich zu bestehenden Methoden erreicht.

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

HEXGEN-FLOW: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL

Die Arbeit stellt HEXGEN-FLOW vor, ein Framework, das durch einen hierarchischen Scheduler und eine adaptive Prioritätswarteschlange die Latenz verringert und den Durchsatz für agentic Text-to-SQL-Anfragen auf heterogenen GPU-Clustern signifikant verbessert.

You Peng, Youhe Jiang, Wenqi Jiang, Chen Wang, Binhang Yuan2026-03-10💻 cs

← Zurück Weiter →