cs Arbeiten | Gist.Science

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

Der vorgestellte Ansatz T2SGrid verbessert die Video-Temporal-Localization, indem er zeitliche Abfolgen durch ein überlappendes Gleitfenster-Verfahren in strukturierte 2D-Gitterbilder umwandelt, um so komplexe zeitliche Dynamiken effizienter zu erfassen als herkömmliche Methoden.

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

VSL-Skin: Individually Addressable Phase-Change Voxel Skin for Variable-Stiffness and Virtual Joints Bridging Soft and Rigid Robots

Die vorgestellte VSL-Skin-Technologie ermöglicht erstmals eine individuell adressierbare, voxelbasierte Steuerung der Steifigkeit und virtueller Gelenke in Robotern durch Phasenwechselmaterialien, wodurch die Lücke zwischen weichen und starren Robotern geschlossen und gleichzeitig Selbstreparatur sowie programmierbare Bruchstellen realisiert werden.

Zihan Oliver Zeng, Jiajun An, Preston Luk, Upinder Kaur2026-03-10💻 cs

Configurable Runtime Orchestration for Dynamic Data Retrieval in Distributed Systems

Dieses Paper stellt ein konfigurationsgesteuertes Framework für die dynamische Orchestrierung von Datenabrufen in verteilten Systemen vor, das durch die generierung von Ausführungsgraphen zur Laufzeit eine flexible und skalierbare Integration ermöglicht, ohne bei sich ändernden Anforderungen einen Code-Neubereitstellung zu erfordern.

Abhiram Kandiraju2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Diese Arbeit zeigt, dass durch den Einsatz voralineierter multimodaler Encoder und eines neuartigen harten kontrastiven Verlusts (HCL) eine state-of-the-art Bild-zu-Form-Wiedergewinnung (IBSR) ohne explizite Ansichtsüberwachung oder Neutrainieren auf Ziel-Datenbanken ermöglicht wird.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Die vorgestellte Arbeit stellt ein einfaches, aber effektives multimodales Rahmenwerk vor, das Vision-Language-Modelle durch die Verwendung von visuellen Referenz-Token und einem abgestimmten Chain-of-Thought-Datensatz mit expliziter objektszentrierter Verankerungsfähigkeit ausstattet, wodurch sie die räumliche reasoning-Fähigkeit bei monokularen Fahrzeugszenen erheblich verbessert.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

Die Studie stellt ADAS-TO vor, den ersten groß angelegten natürlichen Datensatz für ADAS-zu-Manuell-Übergänge, der durch multimodale Analysen zeigt, dass in über der Hälfte der sicherheitskritischen Fälle visuelle Warnsignale mindestens drei Sekunden vor einer Übernahme erkennbar sind.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

Foundational World Models Accurately Detect Bimanual Manipulator Failures

Diese Arbeit stellt einen effizienten, auf einem Weltmodell basierenden Ansatz vor, der mithilfe von Unsicherheitsschätzungen und konformaler Vorhersage bimanuelle Manipulationsfehler zuverlässig erkennt und dabei sowohl die Genauigkeit als auch die Parameter-Effizienz im Vergleich zu bestehenden Methoden deutlich verbessert.

Isaac R. Ward, Michelle Ho, Houjun Liu, Aaron Feldman, Joseph Vincent, Liam Kruse, Sean Cheong, Duncan Eddy, Mykel J. Kochenderfer, Mac Schwager2026-03-10💻 cs

MipSLAM: Alias-Free Gaussian Splatting SLAM

Die Arbeit stellt MipSLAM vor, ein frequenzbewusstes 3D-Gaussian-Splatting-SLAM-Framework, das durch einen elliptischen adaptiven Anti-Aliasing-Algorithmus und eine spektralbewusste Pose-Graph-Optimierung sowohl hochqualitative, aliasfreie neue Ansichten als auch eine robuste Pose-Schätzung unter variierenden Kamerakonfigurationen ermöglicht.

Yingzhao Li, Yan Li, Shixiong Tian, Yanjie Liu, Lijun Zhao, Gim Hee Lee2026-03-10💻 cs

AdaGen: Learning Adaptive Policy for Image Synthesis

Das Paper stellt AdaGen vor, ein lernbares und prozessadapatives Framework, das die iterative Bildsynthese über verschiedene Generierungsparadigmen hinweg durch eine auf Verstärkungslernen und adversariellen Belohnungen basierende Policy-Steuerung optimiert, um manuelle Parameteranpassungen zu eliminieren und gleichzeitig die Bildqualität bei reduzierten Inferenzkosten zu steigern.

Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang2026-03-10💻 cs

Large Language Model-Driven Full-Component Evolution of Adaptive Large Neighborhood Search

Diese Arbeit stellt ein geschlossenes, durch Large Language Models gesteuertes Evolutionsframework vor, das alle Komponenten des Adaptive Large Neighborhood Search (ALNS) automatisch neu entwickelt und dabei durch den MAP-Elites-Mechanismus sowohl die Lösungsqualität als auch die strategische Vielfalt verbessert, was auf TSPLIB-Benchmarks zu signifikant besseren Ergebnissen als bei klassischen Ansätzen führt.

Shaohua Yu, Tianyu Chen, Linyan Liu2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

Das Paper stellt TrajPred vor, ein Framework für Vision-Sprach-Modelle, das durch die Kodierung von Instrumentenbahnen und eine trajectorie-konditionierte Vorhersage semantischer visueller Embeddings die Erkennung von Instrument-Gewebe-Interaktionen in der robotischen Chirurgie verbessert.

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

Privacy-Preserving Patient Identity Management Framework for Secure Healthcare Access

Diese Arbeit stellt ein patientenzentriertes, privatsphäreschonendes Identitätsmanagement-Framework für das Gesundheitswesen vor, das durch anonyme Pseudonyme und eine bedingte Rückverfolgbarkeit die Sicherheit gewährleistet und gleichzeitig die Verknüpfbarkeit sowie Nachverfolgbarkeit von Patientendaten minimiert, wobei die praktische Umsetzbarkeit durch formale Verifikation und Simulationen bestätigt wird.

Nasif Muslim, Jean-Charles Grégoire2026-03-10💻 cs

Two-Stage Path Following for Mobile Manipulators via Dimensionality-Reduced Graph Search and Numerical Optimization

Diese Arbeit stellt ein robustes zweistufiges Planungsframework für mobile Manipulatoren vor, das die hochdimensionale Konfigurationsplanung durch eine Entkopplung in eine diskrete Graphsuche und eine anschließende numerische Optimierung mit L-BFGS löst, um submillimetergenaue und kinematisch machbare Trajektorien zu erzeugen.

Fuyu Guo, Yuting Mei, Yuyao Zhang, Qian Tang2026-03-10💻 cs

An Extended Consent-Based Access Control Framework: Pre-Commit Validation and Emergency Access

Diese Arbeit stellt ein erweitertes, einwilligungsbasiertes Zugriffskontrollframework vor, das durch präventive Konflikterkennung bei der Einwilligungserstellung, formale Systeminvarianten für den Basizzugriff und einen kontextsensitiven Notfallzugriffsmechanismus die semantische Korrektheit in Gesundheitssystemen sicherstellt und dabei die Laufzeitlatenz im Vergleich zu herkömmlichen XACML-Ansätzen signifikant reduziert.

Nasif Muslim, Jean-Charles Grégoire2026-03-10💻 cs

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

Das Paper stellt Mozart vor, einen neuartigen Algorithmus-Hardware-Co-Design-Rahmen, der durch eine modulare Expertenallokation und ein fein granulares Scheduling die effiziente Ausbildung von Mixture-of-Experts-LLMs auf 3,5D-Wafer-Scale-Chiplet-Architekturen ermöglicht.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong Chen2026-03-10💻 cs

SuperSkillsStack: Agency, Domain Knowledge, Imagination, and Taste in Human-AI Design Education

Die Studie zeigt, dass generative KI im Designunterricht vor allem als kognitiver Beschleuniger in frühen Phasen dient, während menschliche Kompetenzen wie Urteilsvermögen, Domänenwissen und Geschmack entscheidend bleiben, um KI-Ergebnisse zu validieren und zu verfeinern.

Qian Huang, King Wang Poon2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

Der Artikel stellt OV-DEIM vor, ein Echtzeit-Open-Vocabulary-Objektdetektionsmodell auf Basis von DEIMv2, das durch eine effiziente Query-Supplement-Strategie und die neuartige GridSynthetic-Datenaugmentierung sowohl die Genauigkeit als auch die Leistung bei seltenen Kategorien verbessert.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

Enhancing Web Agents with a Hierarchical Memory Tree

Die Arbeit stellt den Hierarchical Memory Tree (HMT) vor, ein dreistufiges Gedächtnisframework, das durch die Entkopplung von logischer Planung und Aktionsausführung die Generalisierungsfähigkeit von Web-Agenten auf neuen Websites signifikant verbessert.

Yunteng Tan, Zhi Gao, Xinxiao Wu2026-03-10💻 cs

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Die Arbeit stellt TFM vor, einen neuen Jailbreak-Angriff auf Text-zu-Video-Modelle, der unsichere Anfragen in eine zeitlich fragmentierte Zwei-Rahmen-Struktur umwandelt, um durch die Ausnutzung der autonomen Vorhersage von Zwischenbildern Sicherheitsfilter zu umgehen und die Angriffserfolgsrate signifikant zu steigern.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Improved Leakage Abuse Attacks in Searchable Symmetric Encryption with eBPF Monitoring

Diese Arbeit zeigt, dass die Nutzung von eBPF zur Überwachung des Systemverhaltens neue, bisher in SSE-Bedrohungsmodellen unberücksichtigte Leckagen aufdeckt, die bestehende Angriffe verstärken und die Lücke zwischen theoretischer Sicherheit und praktischer Systemexponierung schließen.

Chinecherem Dimobi2026-03-10💻 cs

← Zurück Weiter →