cs.CV Arbeiten | Gist.Science

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

Das Paper stellt Tether vor, eine Methode für autonomes funktionales Spielen in der Robotik, die durch korrespondenzgesteuerte Trajektorienverformung und visuell-linguistische Steuerung aus wenigen Demonstrationen hochwertige Datensätze generiert und so lernfähige Imitationspolicies verbessert.

William Liang, Sam Wang, Hung-Ju Wang + 3 more2026-03-04🤖 cs.AI

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

Das Paper stellt ULTRA vor, ein einheitliches Framework für autonome humanoide Loko-Manipulation, das durch physikbasiertes Motion-Capture-Retargeting und einen multimodalen Controller, der von präzisen Bewegungsreferenzen bis zu spärlichen visuellen Aufgabenanweisungen reicht, robuste Ganzkörpersteuerung ermöglicht.

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

Die vorgestellte Arbeit präsentiert ein zweistufiges Lernframework, das durch Imitationslernen und eine anschließende Feinabstimmung auf Basis menschlicher Präferenzen autonome Roboter in der Lage versetzt, komplexe, kraftsensitive Aufgaben wie das Schälen von Obst und Gemüse mit über 90 % Erfolgsquote und ausgezeichneter Generalisierungsfähigkeit zu bewältigen.

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess

MIBURI: Towards Expressive Interactive Gesture Synthesis

Das Paper stellt MIBURI vor, ein Echtzeit-Framework, das mithilfe eines kausalen, auf LLM-Text-Embeddings basierenden Modells und diskreter Token für Körperteile ausdrucksstarke, synchronisierte Ganzkörpergesten und Gesichtsausdrücke für konversationelle Agenten generiert.

M. Hamza Mughal, Rishabh Dabral, Vera Demberg + 1 more2026-03-04💻 cs

Utonia: Toward One Encoder for All Point Clouds

Das Paper stellt Utonia vor, einen ersten selbstüberwachten Transformer-Encoder, der durch das gemeinsame Training auf diversen 3D-Punktwolken-Domänen eine einheitliche Repräsentation schafft, die nicht nur die Wahrnehmung verbessert, sondern auch robotische Manipulation und räumliches Denken in multimodalen Modellen unterstützt.

Yujia Zhang, Xiaoyang Wu, Yunhan Yang + 6 more2026-03-04💻 cs

Towards Accurate One-Stage Object Detection with AP-Loss

Diese Arbeit stellt ein neues Framework vor, das die Klassifizierung in One-Stage-Objektdetektoren durch eine Rangfolgeaufgabe mit einem neuartigen, auf dem Perzeptron basierenden Optimierungsalgorithmus lösbarer AP-Verlustfunktion ersetzt, um das Problem des extremen Klassenungleichgewichts zu adressieren und die Detektionsleistung signifikant zu steigern.

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

AP-Loss for Accurate One-Stage Object Detection

Diese Arbeit stellt einen neuen Rahmen für einstufige Objektdetektoren vor, der die Klassifizierung durch eine Ranking-Aufgabe mit einer durchschnittlichen Präzisionsverlustfunktion (AP-Loss) ersetzt und durch einen neuartigen Optimierungsalgorithmus das Problem des extremen Klassenungleichgewichts löst, was zu einem verbesserten State-of-the-Art führt.

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

OmniTracker: Unifying Object Tracking by Tracking-with-Detection

Die Arbeit stellt OmniTracker vor, ein einheitliches Tracking-Modell, das durch die Kombination von Verfolgung und Detektion verschiedene Objektverfolgungsaufgaben mit einer gemeinsamen Architektur und Gewichten löst und dabei redundante Parameter eliminiert sowie state-of-the-art Ergebnisse auf sieben Datensätzen erzielt.

Junke Wang, Zuxuan Wu, Dongdong Chen + 4 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

Die Arbeit stellt die Receptive-Field Attention Convolution (RFAConv) vor, eine neue Faltungsoperation, die durch die Einführung des Receptive-Field-Attention-Mechanismus das Problem der Parameter-Sharing-Beschränkungen bei großen Kerneln löst und dabei die Netzwerkleistung signifikant steigert, ohne einen nennenswerten Mehraufwand an Rechenleistung oder Parametern zu verursachen.

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Task-Driven Lens Design

Der Artikel stellt „Task-Driven Lens Design" vor, eine Optimierungsmethode, bei der ein vortrainiertes Computer-Vision-Modell eingefroren wird, um die Linsenform so anzupassen, dass sie die Merkmalspräferenzen des Modells erfüllt, was zu stabileren und leistungsfähigeren optischen Systemen führt als traditionelle Ansätze.

Xinge Yang, Qiang Fu, Yunfeng Nie + 1 more2026-03-03🔬 physics.optics

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

Die vorgestellte Arbeit stellt die Topology Guided MIL (TG-MIL) Methode vor, die durch die Integration topologischer Induktionsverzerrungen in den Datenrepräsentationsraum die Leistung und Generalisierbarkeit des Multiple Instance Learning in datenarmen Szenarien, wie der Klassifizierung seltener Anämie, signifikant verbessert.

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Velocity Disambiguation for Video Frame Interpolation

Die vorgestellte Arbeit verbessert die Video-Framinterpolation durch die Einführung einer „Distance Indexing"-Methode, die anstelle der herkömmlichen Zeitindexierung die zurückgelegte Distanz als expliziten Hinweis nutzt, um Bewegungsunsicherheiten zu reduzieren und durch iterative Referenzschätzung sowie manuelle Steuerung präzise, scharfe Zwischentitel und flexible Nachbearbeitung zu ermöglichen.

Zhihang Zhong, Yiming Zhang, Wei Wang + 5 more2026-03-03💻 cs

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

Diese Arbeit schlägt ein neues latentes partiell kausales Modell vor, das die Grenzen von DAGs überwindet, um die theoretische Identifizierbarkeit von MultiModal Contrastive Learning (MMCL) zu beweisen und durch entkoppelte Repräsentationen Few-Shot-Learning sowie Domänengeneralisierung in multimodalen Anwendungen wie CLIP zu verbessern.

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

Die Autoren stellen das ZACAF-Framework vor, das durch den Einsatz von Transfer Learning, Daten-Augmentierung und Test-Time-Augmentierung eine robuste und generalisierbare Automatisierung der kardiovaskulären Analyse bei Zebrafischen ermöglicht, wie am Beispiel des nrap-Mutantenmodells demonstriert wird.

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

Das Paper stellt FiLo vor, eine Zero-Shot-Anomalieerkennungsmethode, die durch feingranulare Beschreibungen mittels LLMs und eine positionserweiterte Hochwert-Lokalisierung mit Grounding DINO sowie einem Multi-Scale-Modul die Genauigkeit und Interpretierbarkeit bei der Detektion und Lokalisierung von Anomalien in verschiedenen Objektkategorien signifikant verbessert.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

Diese Arbeit stellt die Methode USEFUL vor, die durch gezieltes Upsampling von Beispielen, die auf Basis der frühen Netzwerkausgaben identifiziert werden, die Simplicity-Bias von Optimierungsalgorithmen wie GD und SAM reduziert und dadurch die Generalisierungsfähigkeit auf In-Distribution-Daten signifikant verbessert.

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

Towards Camera Open-set 3D Object Detection for Autonomous Driving Scenarios

Die Arbeit stellt OS-Det3D vor, ein zweistufiges Trainingsframework für die kamera-basierte Open-Set-3D-Objekterkennung, das mithilfe von LiDAR-geometrischen Hinweisen und einem gemeinsamen Selektionsmodul unbekannte Objekte in autonomen Fahrszenarien sicherer entdeckt und gleichzeitig die Leistung für bekannte Objekte verbessert.

Zhuolin He, Xinrun Li, Jiacheng Tang + 4 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

Die Arbeit stellt PO-GUISE+ vor, einen effizienten Multi-Task-Transformer, der durch pose- und objektkontextualisierte Token-Auswahl die Rechenkosten für die Erkennung abgelenkten Fahrens auf Embedded-Plattformen erheblich senkt, während er gleichzeitig die Genauigkeit auf mehreren Datensätzen verbessert.

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

Das Paper stellt MSSPlace vor, eine Methode zur multimodalen Ortserkennung, die durch die späte Fusion von Daten mehrerer Kameras, LiDAR-Punktwolken, semantischen Segmentierungsmasken und Textbeschreibungen den Zustand der Technik auf den Datensätzen Oxford RobotCar und NCLT erreicht.

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

Diese Arbeit stellt einen öffentlich verfügbaren Datensatz mit 21 Videos und einer Taxonomie von 90 für blinde und sehbehinderte Personen entscheidenden Objekten vor, der aufzeigt, dass aktuelle Computer-Vision-Modelle für die Navigation dieser Zielgruppe unzureichend sind und die Notwendigkeit spezialisierter Trainingsdaten unterstreicht.

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

← Zurück Weiter →