How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

Die vorgestellte Arbeit präsentiert ein zweistufiges Lernframework, das durch Imitationslernen und eine anschließende Feinabstimmung auf Basis menschlicher Präferenzen autonome Roboter in der Lage versetzt, komplexe, kraftsensitive Aufgaben wie das Schälen von Obst und Gemüse mit über 90 % Erfolgsquote und ausgezeichneter Generalisierungsfähigkeit zu bewältigen.

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

Die Arbeit stellt die Receptive-Field Attention Convolution (RFAConv) vor, eine neue Faltungsoperation, die durch die Einführung des Receptive-Field-Attention-Mechanismus das Problem der Parameter-Sharing-Beschränkungen bei großen Kerneln löst und dabei die Netzwerkleistung signifikant steigert, ohne einen nennenswerten Mehraufwand an Rechenleistung oder Parametern zu verursachen.

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Velocity Disambiguation for Video Frame Interpolation

Die vorgestellte Arbeit verbessert die Video-Framinterpolation durch die Einführung einer „Distance Indexing"-Methode, die anstelle der herkömmlichen Zeitindexierung die zurückgelegte Distanz als expliziten Hinweis nutzt, um Bewegungsunsicherheiten zu reduzieren und durch iterative Referenzschätzung sowie manuelle Steuerung präzise, scharfe Zwischentitel und flexible Nachbearbeitung zu ermöglichen.

Zhihang Zhong, Yiming Zhang, Wei Wang + 5 more2026-03-03💻 cs

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

Das Paper stellt FiLo vor, eine Zero-Shot-Anomalieerkennungsmethode, die durch feingranulare Beschreibungen mittels LLMs und eine positionserweiterte Hochwert-Lokalisierung mit Grounding DINO sowie einem Multi-Scale-Modul die Genauigkeit und Interpretierbarkeit bei der Detektion und Lokalisierung von Anomalien in verschiedenen Objektkategorien signifikant verbessert.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

Diese Arbeit stellt einen öffentlich verfügbaren Datensatz mit 21 Videos und einer Taxonomie von 90 für blinde und sehbehinderte Personen entscheidenden Objekten vor, der aufzeigt, dass aktuelle Computer-Vision-Modelle für die Navigation dieser Zielgruppe unzureichend sind und die Notwendigkeit spezialisierter Trainingsdaten unterstreicht.

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs