cs Arbeiten | Gist.Science

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

Diese Arbeit stellt ein hierarchisches Observe-Orient-Decide-Act (H-OODA)-Framework vor, das durch die Integration von Cloud-Edge-Terminal-Schichten und Network Function Virtualization (NFV) die Entscheidungsfindung und Steuerung von UAV-Schwärmen in unsicheren Umgebungen verbessert, während gleichzeitig potenzielle Herausforderungen und zukünftige Forschungsrichtungen analysiert werden.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu Han2026-03-11💻 cs

WESPR: Wind-adaptive Energy-Efficient Safe Perception & Planning for Robust Flight with Quadrotors

Die Arbeit stellt WESPR vor, ein schnelles Framework, das geometrische Wahrnehmung und lokale Wetterdaten nutzt, um Windfelder vorherzusagen und so eine proaktive, windangepasste Pfadplanung und Steuerung für Quadrotoren zu ermöglichen, was zu einer signifikanten Verbesserung der Flugstabilität und Trajektorienabweichung führt.

Khuzema Habib, Pranav Deshakulkarni Manjunath, Kasra Torshizi, Troi Williams, Pratap Tokekar2026-03-11💻 cs

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Die vorgestellte Arbeit entwickelt einen geometrie-bewussten metrischen Lernansatz, der auf inter-joint Winkeln basiert, um die Herausforderungen der domänenbedingten Verschiebung bei der few-shot Erkennung von Gebärdensprachen über verschiedene Sprachen hinweg zu überwinden und dabei eine deutlich höhere Genauigkeit als herkömmliche Koordinaten-basierte Methoden zu erzielen.

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

Die Arbeit stellt PIM-SHERPA vor, eine rein softwarebasierte Methode, die durch die Einführung von DRAM-Doppelbuffering und online Gewichtsumordnung die Speicherattribut- und Layout-Inkonsistenzen bei der Inferenz von Large Language Models auf PIM-fähigen Endgeräten löst und dabei erhebliche Speichereinsparungen bei vergleichbarer Leistung ermöglicht.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon Yu2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Das Paper stellt TubeMLLM vor, ein multimodales Fundamentmodell, das durch die Integration topologischer Vorwissen in eine gemeinsame Aufmerksamkeitsarchitektur und die Nutzung eines neuen Benchmarks (TubeMData) die topologische Konsistenz bei der Modellierung von Gefäßstrukturen in der medizinischen Bildgebung deutlich verbessert und dabei herausragende Zero-Shot-Leistung sowie Robustheit gegenüber Domänenverschiebungen und Bildstörungen aufweist.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Diese Arbeit stellt eine neuartige Verlustfunktion für ein verteiltes Convolutional Neural Network (DisCNN) vor, das durch die Abbildung positiver Proben auf einen kompakten Raum und negativer Proben auf den Ursprung spezifische Merkmale extrahiert, wodurch eine leichte Architektur mit hervorragender Generalisierungsfähigkeit für die Objekterkennung in komplexen Hintergründen ermöglicht wird.

Liang Sun2026-03-11💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

Die Arbeit stellt UniField vor, ein einheitliches, feldbewusstes Framework zur Verbesserung von MRT-Bildern, das durch die Nutzung von 3D-Grundmodellen, einen spektralen Korrekturmechanismus und einen neu veröffentlichten großen Datensatz die Generalisierungsfähigkeit und Bildqualität über verschiedene Magnetfeldstärken hinweg signifikant verbessert.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan Yuan2026-03-11💻 cs

TRIP-Bag: A Portable Teleoperation System for Plug-and-Play Robotic Arms and Leaders

Das Paper stellt TRIP-Bag vor, ein tragbares Teleoperationssystem in einem Koffer, das es ermöglicht, mit geringem Aufwand und ohne Embodiment-Lücke hochwertige Manipulationsdaten für das robotische Lernen in verschiedenen Umgebungen zu sammeln.

Noboru Myers, Sankalp Yamsani, Obin Kwon, Joohyung Kim2026-03-11💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Die Arbeit stellt Flash-KMeans vor, eine GPU-basierte Implementierung des K-Means-Algorithmus, die durch innovative Kernel-Techniken wie FlashAssign und sort-inverse update IO-Engpässe und atomare Konflikte eliminiert und damit im Vergleich zu etablierten Bibliotheken wie cuML und FAISS Geschwindigkeitssteigerungen von bis zu 17,9-fach bis über 200-fach erzielt.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion Stoica2026-03-11💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

Die Arbeit stellt HelixTrack vor, eine rein ereignisbasierte Methode zur Echtzeit-Verfolgung und RPM-Schätzung von Propeller-artigen Objekten unter Ego-Bewegung, die durch die Einführung des TQE-Datensatzes und eine neuartige Homographie-basierte Phasen-Schätzung bestehende Grenzen überwindet.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri Matas2026-03-11💻 cs

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Die Arbeit stellt MORLAX, einen GPU-nativen Multi-Objective-Reinforcement-Learning-Algorithmus, und MO-Playground, eine Sammlung von GPU-beschleunigten Umgebungen, vor, die durch massive Parallelisierung die Berechnung von Pareto-optimalen Politiken für komplexe Roboteraufgaben um das 25- bis 270-fache beschleunigen.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan Tucker2026-03-11💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Die Arbeit stellt RAE-NWM vor, ein Navigations-Weltmodell, das die Dynamik in einem dichten visuellen Repräsentationsraum (DINOv2) anstelle eines komprimierten latenten Raums modelliert und dabei einen Conditional Diffusion Transformer mit einem entkoppelten Kopf sowie einem zeitgesteuerten Gate-Modul nutzt, um die strukturelle Stabilität und die Genauigkeit der Aktionsvorhersage für die visuelle Navigation zu verbessern.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Die vorgestellte Arbeit identifiziert das Problem des „semantischen Rückfalls" bei KI-generierten Bilderkennungssystemen und schlägt mit dem parametrenfreien Modul „Geometric Semantic Decoupling" (GSD) eine Lösung vor, die durch das Entfernen semantischer Komponenten die Generalisierungsfähigkeit und Robustheit gegenüber unbekannten Manipulationen signifikant verbessert.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Das Paper stellt Poly-DETR vor, einen Transformer-basierten Ansatz, der die Instanzsegmentierung durch eine spärliche Polygon-Regressionsmethode mittels Polarrepräsentation neu formuliert und dabei sowohl die Recheneffizienz bei hochauflösenden Eingaben verbessert als auch eine überlegene Leistung gegenüber maskenbasierten Methoden in domänenspezifischen Szenarien erzielt.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

Die Arbeit stellt „Reasoning-Oriented Programming" vor, einen neuen Angriffsansatz, der durch das Ketteln semantisch orthogonaler, harmloser visueller Gadgets die Sicherheitsausrichtung von Large Vision-Language Models umgeht, indem sie schädliche Logik erst im späten Reasoning-Prozess synthetisiert.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang2026-03-11💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

Die Arbeit stellt RF-Mem vor, einen adaptiven Dual-Pfad-Memory-Retriever für personalisierte LLMs, der durch die Nachahmung des menschlichen dualen Gedächtnisprozesses (Vertrautheit und Erinnerung) eine skalierbare und präzise Kontextwiedergewinnung ermöglicht, die herkömmliche Methoden in Bezug auf Genauigkeit und Effizienz übertrifft.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu Zhao2026-03-11💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Die Arbeit stellt „Platooning as a Service" (PlaaS) als ein auf einem Stackelberg-Spiel basierendes Entscheidungsrahmenwerk vor, das durch die Optimierung von Preisgestaltung und Fahrstrecken für vernetzte autonome Fahrzeuge sowie die Analyse staatlicher Subventionen die Nachhaltigkeit im Verkehr durch reduzierte Emissionen und gesteigerte Effizienz fördert.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand Abrahamb2026-03-11💻 cs

Multimodal Graph Representation Learning with Dynamic Information Pathways

Die vorgestellte Arbeit stellt DiP vor, ein neuartiges Framework für das multimodale Graph-Lernen, das durch modalspezifische Pseudo-Knoten und dynamische Informationspfade eine adaptive, ausdrucksstarke und lineare Komplexität aufweisende Nachrichtenweitergabe über Modalitäten hinweg ermöglicht und dabei bestehende Basismodelle in verschiedenen Benchmarks übertrifft.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Diese Arbeit stellt ein neuartiges Framework vor, das große Mengen an Web-Videos mit impliziten Geometriedarstellungen kombiniert, um Vision-and-Language-Navigation in realistischen Umgebungen zu skalieren und gleichzeitig den Bedarf an fragiler 3D-Rekonstruktion zu umgehen.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Diese Studie untersucht mittels subjektiver Experimente, wie sich End-to-End-Latenz in VR-Konferenzen im Vergleich zu herkömmlicher Videokonferenzierung auf die wahrgenommene Interaktionsflüssigkeit und das soziale Präsenzempfinden auswirkt, um Erkenntnisse für die Optimierung immersiver virtueller Umgebungen zu gewinnen.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi Lin2026-03-11💻 cs

← Zurück Weiter →