cs Arbeiten | Gist.Science

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Die Arbeit stellt StyleVLA vor, ein physikinformiertes Vision-Language-Action-Modell auf Basis von Qwen3-VL-4B, das durch einen hybriden Verlust und einen umfangreichen Datensatz mit 1,2k Szenarien diverse, physikalisch plausible Fahrmanöver in verschiedenen Fahrstilen generiert und dabei proprietäre Modelle wie Gemini-3-Pro deutlich übertrifft.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Die vorgestellte Arbeit stellt einen neuartigen, komponentenbewussten Zwei-Stufen-Rahmen zur Umwandlung von Skizzen in fotorealistische Bilder vor, der durch die Kombination eines selbstaufmerksamkeitsbasierten Autoencoders, einer koordinatenbewahrenden Gated-Fusion und einer räumlich adaptiven Verfeinerung die Bildqualität und semantische Genauigkeit gegenüber bestehenden GAN- und Diffusionsmodellen signifikant verbessert.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Die vorgestellte Arbeit stellt „Diagonal Distillation" vor, eine effiziente Methode zur Echtzeit-Streaming-Videogenerierung, die durch eine asymmetrische Schrittstrategie und die explizite Berücksichtigung temporaler Abhängigkeiten die Latenz drastisch reduziert und gleichzeitig die Bewegungskohärenz sowie die Fehlerakkumulation in langen Sequenzen verbessert.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

Dieser Beitrag stellt das Artefaktmodell für regulatorische Requirements Engineering (AM4RRE) vor, das darauf abzielt, die systematische Integration von Compliance-by-Design in den Softwareentwicklungslebenszyklus durch die Überwindung von Herausforderungen wie komplexer Koordination zwischen verschiedenen Perspektiven und ad-hoc-Praktiken zu ermöglichen.

Oleksandr Kosenkov2026-03-11💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Die Arbeit stellt SurgFed vor, ein sprachgesteuertes Multi-Task-Federated-Learning-Framework, das durch sprachgesteuerte Kanal-Auswahl und Hyper-Aggregation die Herausforderungen der Gewebe- und Aufgabenvielfalt bei der chirurgischen Videoanalyse über verschiedene Standorte hinweg löst und damit die Segmentierung und Tiefenschätzung in roboterassistierten minimal-invasiven Eingriffen verbessert.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

Die Studie stellt einen RAG-basierten Ansatz vor, der durch die Nutzung von projektspezifischen Artefakten zur Generierung von Embedded-C-Tests die manuelle Testzeit um bis zu 66 % reduziert und dabei eine hohe syntaktische Korrektheit sowie eine erfolgreiche Laufzeitvalidierung von 85 % der generierten Tests erreicht.

Maximilian Harnot, Sebastian Komarnicki, Michal Polok, Timo Oksanen2026-03-11💻 cs

Avoiding Big Integers: Parallel Multimodular Algebraic Verification of Arithmetic Circuits

Die vorgestellte Arbeit stellt eine hybride algebraische Verifikationsmethode für arithmetische Schaltungen vor, die durch parallele Multimodularrechnung modulo verschiedener Primzahlen den Einsatz rechenintensiver Großzahlarithmetik vermeidet und so die Effizienz bei der Wortebenen-Verifikation erheblich steigert.

Clemens Hofstadler, Daniela Kaufmann, Chen Chen2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Die Arbeit stellt Context-Nav vor, ein trainingsfreies System für die textbasierte Instanznavigation, das durch die Nutzung kontextueller Beschreibungen als globaler Erkundungsprior und eine viewpoint-bewusste 3D-Raumverifikation den State-of-the-Art auf Benchmarks wie InstanceNav und CoIN-Bench erreicht.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Diese Arbeit untersucht die Zuverlässigkeit von Vision-Language-Modellen im autonomen Fahren, identifiziert deren Mängel in Konsistenz und temporaler Begründung, stellt einen neuen Benchmark namens FutureVQA vor und schlägt eine selbstüberwachte Feinabstimmung mit Chain-of-Thought-Reasoning vor, um diese Defizite ohne temporale Labels zu beheben.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Die Arbeit stellt mit RuleSafe einen neuen Benchmark für langfristige Manipulationsaufgaben an artikulierten Objekten vor und schlägt VQ-Memory vor, eine kompakte, vektorquantisierte Gedächtnisdarstellung, die die Planung und Generalisierung von Vision-Language-Action-Modellen in nicht-Markovschen Umgebungen signifikant verbessert.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai Chenjia2026-03-11💻 cs

RESBev: Making BEV Perception More Robust

Die Arbeit stellt RESBev vor, eine robuste und plug-and-play-fähige Methode für die Vogelperspektive (BEV) in autonomen Fahrzeugen, die durch ein latentes Weltmodell korrupte Beobachtungen rekonstruiert und so die Widerstandsfähigkeit bestehender Systeme gegen sensorische Störungen und adversariale Angriffe signifikant verbessert.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng Wang2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Die Arbeit stellt DCAU-Net vor, ein effizientes Framework für die medizinische Bildsegmentierung, das durch eine neue Differential Cross Attention (DCA) zur Reduktion der Rechenkomplexität bei gleichzeitiger Hervorhebung diskriminierender Strukturen sowie eine Channel-Spatial Feature Fusion (CSFF) für die adaptive Integration semantischer und räumlicher Merkmale die Segmentierungsgenauigkeit und Robustheit verbessert.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Diese Studie stellt eine von einem Large Language Model (LLM) gesteuerte Methode zur dynamischen multimodalen Ausdrucks生成 vor, die in virtuellen Lernumgebungen semantisch abgestimmte Sprache und Gesten erzeugt und nachweislich die Lernwirksamkeit, das Engagement sowie das menschliche Erscheinungsbild von pädagogischen Agenten verbessert.

Ninghao Wan, Jiarun Song, Fuzheng Yang2026-03-11💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Diese Arbeit stellt eine Reinforcement-Learning-Strategie vor, die Unified Vision-Language-Modelle durch eine hybride Warm-up-Phase und eine erweiterte Group Relative Policy Optimization (GRPO) mit hybriden sowie prozessbasierten Belohnungen befähigt, hochwertige multimodale interleaved Ausgaben ohne große spezialisierte Datensätze zu generieren.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Die Autoren stellen den DynHiL-EQA-Datensatz und das trainingfreie Framework DIVRR vor, um die Herausforderungen dynamischer, von Menschen bevölkerter Umgebungen beim Embodied Question Answering durch eine relevante Sichtverfeinerung und selektive Speicherauswahl zu bewältigen und dabei sowohl die Robustheit als auch die Inferenzeffizienz zu steigern.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

Die Arbeit stellt NS-VLA vor, ein neuartiges neuro-symbolisches Vision-Language-Action-Framework, das durch den Einsatz eines symbolischen Encoders, eines symbolischen Lösers und Online-Reinforcement-Learning die Daten-effizienz, Generalisierbarkeit und Explorationsfähigkeit von Robotern in Manipulationsaufgaben verbessert.

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran Luo2026-03-11💻 cs

Compartmentalization-Aware Automated Program Repair

Diese Arbeit stellt einen neuen, auf Large Language Models basierenden Rahmen für die automatische Programmkorrektur vor, der speziell entwickelt wurde, um Sicherheitslücken an Schnittstellen zwischen isolierten Softwarekompartimenten durch eine Kombination aus spezialisiertem Fuzzing, Analysetechniken und Validierung zu identifizieren und zu beheben.

Jia Hu, Youcheng Sun, Pierre Olivier2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Diese Studie bietet eine umfassende Analyse verschiedener Zeit-of-Flight-Nicht-Sichtlinien-Imaging-Methoden, indem sie diese unter einem gemeinsamen mathematischen und hardwaretechnischen Rahmen vergleicht, um ihre Ähnlichkeiten, Unterschiede sowie gemeinsame Leistungsgrenzen bezüglich räumlicher Auflösung und Rauschempfindlichkeit objektiv zu bewerten.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

Enabling Multi-Client Authorization in Dynamic SSE

Die Arbeit stellt MASSE vor, ein dynamisches Suchverschlüsselungsschema für mehrere Clients, das attributbasierte Zugriffskontrolle integriert, um eine feingranulare Autorisierung und effiziente Aktualisierungen in der Cloud zu ermöglichen, ohne die Privatsphäre der Schlüsselwörter oder Attribute zu gefährden.

Seydina Ousmane Diallo, Maryline Laurent, Nesrine Kaaniche2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Das Paper stellt GeoSolver vor, ein Framework, das durch den Einsatz eines token-level Prozess-Reward-Modells (GeoPRM) und des Algorithmus Process-Aware Tree-GRRO die testzeitliche Skalierbarkeit und visuelle Zuverlässigkeit von Vision-Language-Modellen in der Fernerkundung durch feingranulare Prozessüberwachung signifikant verbessert.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

← Zurück Weiter →