cs Arbeiten | Gist.Science

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

Die Arbeit stellt BinaryAttention vor, eine Methode zur 1-Bit-Quantisierung von QK-Attention in Vision- und Diffusion-Transformern, die durch binäre Operationen und einen lernbaren Bias eine über 2-fache Beschleunigung gegenüber FlashAttention2 bei gleichzeitiger Beibehaltung oder sogar Steigerung der Genauigkeit ermöglicht.

Chaodong Xiao, Zhengqiang Zhang, Lei Zhang2026-03-11💻 cs

Towards Terrain-Aware Safe Locomotion for Quadrupedal Robots Using Proprioceptive Sensing

Diese Arbeit stellt einen propriozeptiven Rahmen für quadrupede Roboter vor, der durch die Kombination einer 2,5-D-Terrain-Schätzung mit sicherheitskritischen Kontrollbarrierefunktionen eine robuste und sichere Fortbewegung in unebenem Gelände ohne externe Sensoren ermöglicht.

Peiyu Yang, Jiatao Ding, Wei Pan, Claudio Semini, Cosimo Della Santina2026-03-11💻 cs

Game-Theoretic Modeling of Stealthy Intrusion Defense against MDP-Based Attackers

Diese Studie modelliert die Abwehr von Advanced Persistent Threats (APTs) als spieltheoretische Interaktion zwischen einem Angreifer, der auf einem MDP-basierten Angriffsgraphen agiert, und einem Verteidiger, der unter drei unterschiedlichen Informationsregimen optimale Strategien zur Platzierung von Intrusion-Detection-Sensoren entwickelt, um den Zugriff auf kritische Assets zu minimieren.

Willie Kouam, Stefan Rass2026-03-11💻 cs

A Generalized Voronoi Graph based Coverage Control Approach for Non-Convex Environment

Dieser Artikel stellt einen zweistufigen Ansatz zur Abdeckung nicht-konvexer Umgebungen mit mehreren Hindernissen vor, der auf einem generalisierten Voronoi-Graphen basiert, um durch Lastausgleich und kollaborative Steuerung eine effiziente Roboterverteilung und -steuerung zu gewährleisten.

Zuyi Guo, Ronghao Zheng, Meiqin Liu, Senlin Zhang2026-03-11💻 cs

Symbolic Discovery of Stochastic Differential Equations with Genetic Programming

Diese Arbeit stellt eine Methode zur symbolischen Entdeckung stochastischer Differentialgleichungen mittels genetischer Programmierung vor, die durch die gemeinsame Optimierung von Drift- und Diffusionsfunktionen eine interpretierbare Modellierung und Generierung von Rauschkomponenten in dynamischen Systemen ermöglicht.

Sigur de Vries, Sander W. Keemink, Marcel A. J. van Gerven2026-03-11💻 cs

Preparing Students for AI-Driven Agile Development: A Project-Based AI Engineering Curriculum

Dieser Artikel stellt ein praxisbasiertes Lehrkonzept vor, das agile Methoden und KI-Engineering integriert, um Studierende durch interdisziplinäre Teamprojekte mit KI-Tools auf die moderne Softwareentwicklung vorzubereiten und dabei sowohl technische Kompetenzen als auch kritische Reflexion zu fördern.

Andreas Rausch, Stefan Wittek, Tobias Geger, David Inkermann2026-03-11💻 cs

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

Die Arbeit stellt Nemo vor, einen Cache für winzige Objekte auf logisch strukturierten Flash-Geräten, der durch eine erhöhte Hash-Kollisionswahrscheinlichkeit, einen Bloom-Filter-basierten Index und ein hybrides Hotness-Tracking gleichzeitig eine geringe Schreibverstärkung, hohe Speichereffizienz und eine niedrige Fehlerrate erreicht.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu Shu2026-03-11💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

Das Paper stellt ParTY vor, ein neuartiges Framework, das durch eine part-geführte Netzarchitektur, eine part-bewusste Textverankerung und eine adaptive Fusion von Ganzkörper- und Teilbewegungen kohärente und ausdrucksstarke Text-zu-Bewegungs-Synthesen ermöglicht, die spezifische Körperteile präzise abbilden.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh Cho2026-03-11💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Die Studie zeigt, dass eine durch DINO-Aufmerksamkeitskarten inspirierte, sakkadenbasierte Bildklassifizierung, die sich auf relevante Bildregionen konzentriert, die Leistung herkömmlicher Modelle erhält oder sogar übertreffen und so einen vielversprechenden Ansatz für effiziente, biologisch inspirierte visuelle Verarbeitung bietet.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond2026-03-11💻 cs

Physics-Driven 3D Gaussian Rendering for Zero-Shot MRI Super-Resolution

Die Arbeit stellt einen Zero-Shot-Ansatz für die 3D-MRI-Super-Resolution vor, der physikbasierte 3D-Gaussian-Repräsentationen und eine volumenbasierte Rendering-Strategie nutzt, um eine effiziente und datenunabhängige Bildrekonstruktion mit hoher Qualität zu ermöglichen.

Shuting Liu, Lei Zhang, Wei Huang, Zhao Zhang, Zizhou Wang2026-03-11💻 cs

Decoder-Free Distillation for Quantized Image Restoration

Die Arbeit stellt QDR vor, ein Framework für die quantisierte Bildwiederherstellung am Edge, das durch decoderfreie Destillation, selbstgestützte FP32-Destillation und eine lernbare Gewichtung der Verluste die Effizienz und Genauigkeit von Int8-Modellen signifikant verbessert.

S. M. A. Sharif, Abdur Rehman, Seongwan Kim, Jaeho Lee2026-03-11💻 cs

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

Die Arbeit stellt OTPL-VIO vor, ein robustes stereo-visuell-inertiales Odometrie-System, das durch lernfreie Linien-Deskriptoren und eine auf optimaler Transporttheorie basierende Zuordnung sowie eine adaptive Unsicherheitsgewichtung die Genauigkeit und Stabilität in texturarmen und beleuchtungswechselnden Umgebungen verbessert.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

Proportionality Degree in Participatory Budgeting

Diese Arbeit untersucht den Proportionalitätsgrad von Partizipativen Budgetierungsverfahren, insbesondere der Methode des gleichen Anteils (MES) und Phragmén's sequentieller Regel, und zeigt durch theoretische Grenzen sowie experimentelle Evaluation auf realen Datensätzen, dass beide Regeln trotz unterschiedlicher axiomatischer Eigenschaften quantitativ denselben Proportionalitätsgrad aufweisen.

Aris Filos-Ratsikas, Sreedurga Gogulapati, Georgios Kalantzis2026-03-11💻 cs

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

Die Arbeit stellt DiffWind vor, ein physik-informiertes, differentielles Framework, das mithilfe von 3D-Gaussian-Splatting, dem Material Point Method und der Lattice-Boltzmann-Methode windgetriebene Objektdynamiken aus Videos rekonstruiert und realistische Simulationen sowie Wind-Retargeting ermöglicht.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

Die Arbeit stellt VarSplat vor, ein unsicherheitsbewusstes 3D-Gaussian-Splatting-SLAM-System, das durch das explizite Lernen von Varianz pro Splat und die Ableitung differenzierbarer Unsicherheitskarten eine robustere Pose-Schätzung und Kartierung in Szenen mit geringer Textur, transparenten Oberflächen oder komplexen Reflexionen ermöglicht.

Anh Thuan Tran, Jana Kosecka2026-03-11💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

Die Arbeit stellt FootMR vor, eine Methode zur Verfeinerung der Fußbewegung in markerloser monokularer 3D-Motion-Capture, die durch das Heben von 2D-Schlüsselpunkten unter Nutzung großer Motion-Capture-Datensätze und die Einführung des MOOF-Datensatzes die Genauigkeit der Fußarticulation signifikant verbessert.

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

Die Arbeit stellt DRIFT vor, einen Dual-Representation Inter-Fusion Transformer, der durch eine parallele Architektur aus Punkt- und Säulenpfaden lokale sowie globale Kontextinformationen aus 4D-Radarpunktwolken effektiv fusioniert und damit die Leistung bei der Objekterkennung und Straßenabschätzung für automatisiertes Fahren signifikant verbessert.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Die Arbeit stellt TemporalDoRA vor, eine parametereffiziente Feinabstimmungsmethode für chirurgische Video-Frage-Antwort-Systeme, die durch die Integration von zeitlicher Aufmerksamkeit in den Low-Rank-Adaptionspfad die Robustheit gegenüber linguistischen Variationen verbessert, und führt zudem den neuen REAL-Colon-VQA-Datensatz ein.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

Diese Studie führt eine empirische Untersuchung von „Interaktionsgerüchen" in der mehrstufigen Mensch-LLM-Codegenerierung durch, stellt eine erste Taxonomie vor, analysiert deren Verteilung in verschiedenen Modellen und schlägt das Multi-Agenten-Framework InCE zur effektiven Minderung dieser Qualitätsprobleme vor.

Binquan Zhang, Li Zhang, Lin Shi, Song Wang, Yuwei Qian, Linhui Zhao, Fang Liu, An Fu, Yida Ye2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

Das Paper stellt TriFusion-SR vor, ein wellenlettbasiertes, konditioniertes Diffusionsframework, das die gemeinsame Fusion und Super-Resolution von tri-modalen medizinischen Bildern ermöglicht, indem es Frequenzband-Zerlegung und adaptive räumlich-frequente Fusion nutzt, um Artefakte zu reduzieren und die Bildqualität signifikant zu verbessern.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

← Zurück Weiter →