cs Arbeiten | Gist.Science

Mix-modal Federated Learning for MRI Image Segmentation

Der Artikel stellt ein neues Paradigma namens MixMFL sowie ein darauf aufbauendes Framework namens MDM-MixMFL vor, das durch Modality-Decoupling und einen Modality-Memorizing-Mechanismus die Herausforderungen der Heterogenität bei dezentralen, multimodalen MRI-Bildsegmentierungsaufgaben in verteilten Krankenhäusern löst.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

Die Studie stellt UltraUPConvNet vor, einen rechen-effizienten Multi-Task-Deep-Learning-Ansatz auf Basis von UPerNet und ConvNeXt, der gleichzeitig die Gewebesegmentierung und die Krankheitsvorhersage in Ultraschallbildern mit state-of-the-art-Leistung und geringerem Rechenaufwand ermöglicht.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Die Arbeit stellt Traffic-MLLM vor, ein retrieval-freies Framework für multimodales Verkehrsreasoning, das durch curiosity-gesteuertes, überwachtes Lernen auf einer multi-quelligenen Datenbasis eine generalisierbare Fallraum-Repräsentation erlernt und damit die Robustheit von autonomen Fahrsystemen in langschwanzigen Szenarien verbessert.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

Der Artikel stellt ActivePose vor, ein aktives System zur 6D-Pose-Schätzung und -Verfolgung, das Vision-Language-Modelle mit „robotischer Imagination" und Diffusionsrichtlinien kombiniert, um durch dynamische Kamerabewegungen und Next-Best-View-Strategien Mehrdeutigkeiten in Echtzeit aufzulösen und die Sichtbarkeit von Objekten zu gewährleisten.

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

Bio-inspired tail oscillation enables robot fast crawling on deformable granular terrains

Inspiriert vom Schlammfisch zeigt diese Studie, dass die aktive Schwanzbewegung eines Roboters den Untergrund aufweicht, wodurch der Widerstand verringert und die Fortbewegungsgeschwindigkeit auf deformierbarem Sand um 67 % gesteigert wird.

Shipeng Liu, Meghana Sagare, Shubham Patil, Feifei Qian2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Die Arbeit stellt SAGA vor, eine Methode zur selektiven adaptiven Gating, die die Effizienz und Ausdruckskraft linearer Aufmerksamkeit für Vision-Transformer verbessert, indem sie durch lernbare Gatter die uniforme Kompression von Key-Value-Informationen vermeidet und so sowohl die Rechenleistung als auch die Genauigkeit bei der Verarbeitung hochauflösender Bilder signifikant steigert.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Die Arbeit stellt den Cumulative Consensus Score (CCS) vor, eine modellunabhängige und annotierungsfreie Metrik, die durch Messung der räumlichen Konsistenz von Bounding-Box-Vorhersagen über Testzeit-Augmentierungen hinweg die Zuverlässigkeit von Objektdetektoren im Einsatz überwacht und dabei eine hohe Übereinstimmung mit etablierten Qualitätsmaßen aufweist.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Die Studie stellt WHU-STree vor, ein umfassendes, multimodales Benchmark-Datenset mit synchronisierten Punktwolken und hochauflösenden Bildern aus zwei Städten, das über 21.000 annotierte Straßenbäume umfasst und als Grundlage für die Automatisierung der Bestandsaufnahme sowie die Erforschung von Multi-Modalitäts- und Domänenanpassungsmethoden dient.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

Die Autoren stellen ein asynchrones Reinforcement-Learning-Framework vor, das durch die Entkopplung von Wahrnehmung und Steuerung sowie die Verwendung eines temporalen Kodierungsmoduls hochfrequente, agile autonome Navigation von Luftfahrzeugen in komplexen Umgebungen trotz verzögerter Sensorik ermöglicht und erfolgreich in der realen Welt demonstriert wurde.

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

GeoAware-VLA ist ein Ansatz, der durch die Integration vorgefertigter geometrischer Merkmale in die visuelle Verarbeitung die Generalisierungsfähigkeit von Vision-Language-Action-Modellen auf neue Kameraperspektiven erheblich verbessert, ohne dabei die Leistung im Trainingsbereich zu beeinträchtigen.

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

In dieser Studie wird der OIPP (Object-Adaptive Impact Point Predictor) vorgestellt, ein System für einen Vierbeiner-Roboter, das mithilfe eines neu erstellten Datensatzes mit 8.000 Flugbahnen und eines objektspezifischen Encoders den Landepunkt verschiedener fliegender Objekte präzise vorhersagt, um das Auffangen unter komplexen aerodynamischen Bedingungen zu ermöglichen.

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Die Arbeit stellt das erste öffentliche Korpus LibriTTS-VI vor und schlägt neue Methoden vor, um durch Entkopplung von Sprecheridentität und Stimmimpressions-Steuerung oder eine referenzfreie Technik die präzise numerische Kontrolle von Stimmimpressionsmerkmalen in der Text-zu-Sprache-Synthese zu verbessern.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki Kumakura2026-03-10💻 cs

Compose by Focus: Scene Graph-based Atomic Skills

Die Arbeit stellt einen Framework vor, der szenengraphbasierte Repräsentationen mit diffusionsbasiertem Imitationslernen und einem VLM-Planer kombiniert, um die Robustheit und kompositionelle Generalisierung von Robotern bei langfristigen Manipulationsaufgaben zu verbessern.

Han Qi, Changhe Chen, Heng Yang2026-03-10💻 cs

DroFiT: A Lightweight Band-fused Frequency Attention Toward Real-time UAV Speech Enhancement

Die Arbeit stellt DroFiT vor, ein leichtgewichtiges, single-mikrofonbasiertes Sprachverbesserungsnetzwerk auf Transformer-Basis, das durch eine frequenzfokussierte Aufmerksamkeitsmechanik und hybride Encoder-Decoder-Architektur eine Echtzeit-Entfernung von Drohnengeräuschen auf ressourcenbeschränkten UAV-Plattformen ermöglicht.

Jeongmin Lee, Chanhong Jeon, Hyungjoo Seo, Taewook Kang2026-03-10💻 cs

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Die Autoren stellen ein neuartiges, ereignisbasiertes Visual-Teach-and-Repeat-System vor, das durch Frequenzbereich-Kreuzkorrelation eine Latenz von nur 2,88 ms erreicht und damit autonome Roboternavigation über 3000 Meter bei Tag und Nacht mit einer Spurabweichung unter 15 cm ermöglicht.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Die Studie zeigt, dass aktuelle Video-LLM-Benchmarks das Hören vernachlässigen, und demonstriert, dass die Integration von Sprach- und Audio-Encodern die Leistung bei sprachbasierten Aufgaben signifikant verbessert, während visuell zentrierte Benchmarks kaum beeinflusst werden.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Der Artikel stellt FINS vor, ein leichtgewichtiges Framework, das mithilfe eines vortrainierten Fundamentmodells und eines Multi-Resolution-Hash-Grids aus einem einzigen Bild hochpräzise implizite Oberflächen und SDF-Felder in nur wenigen Sekunden rekonstruiert und damit bestehende Methoden in Geschwindigkeit und Genauigkeit übertrifft.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

Die Arbeit stellt RetoVLA vor, eine Architektur, die durch die Wiederverwendung von Register-Tokens als globale räumliche Kontextquelle die räumliche Reasoning-Fähigkeit von ressourcenschonenden Vision-Language-Action-Modellen ohne Parametererhöhung signifikant verbessert und so die Erfolgsrate robotischer Manipulationsaufgaben steigert.

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Das Paper stellt QuantVGGT vor, ein bahnbrechendes Post-Training-Quantisierungsframework für Visual Geometry Grounded Transformers, das durch eine dual geglättete Feinquantisierung und rauschgefiltertes, vielfältiges Sampling die Herausforderungen schwerer Verteilungen und instabiler Kalibrierung bei Milliarden-modellen löst und dabei eine 3,7-fache Speicherreduktion bei über 98 % der ursprünglichen Genauigkeit ermöglicht.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Diese Arbeit stellt ein autonomes Docking-System für UAVs und Vierbeiner in GPS-freien Umgebungen vor, das durch eine tiefenverstärkungslernbasierte Torso-Stabilisierung des Vierbeiners und eine dreistufige UAV-Steuerung mit beschränkungsorientierter Regelung komplexe Geländestrukturen wie Treppen und steile Hänge erfolgreich bewältigt.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

← Zurück Weiter →