cs.CV Arbeiten | Gist.Science

MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

Die Arbeit stellt MSJoE vor, ein neuartiges Framework, das durch die gemeinsame Optimierung eines Multimodal Large Language Models und eines leichten Keyframe-Samplers mittels Reinforcement Learning die effiziente Verarbeitung langer Videos ermöglicht und dabei auf einem neuen Datensatz sowie mehreren Benchmarks signifikante Genauigkeitssteigerungen erzielt.

Wenhui Tan, Xiaoyi Yu, Jiaze Li + 5 more2026-02-27💻 cs

pMoE: Prompting Diverse Experts Together Wins More in Visual Adaptation

Die Arbeit stellt pMoE vor, eine neuartige Prompt-Tuning-Methode, die durch die dynamische Kombination von Expertengruppen mit spezialisierten Prompt-Token und einem lernbaren Dispatcher die Leistung bei visuellen Anpassungsaufgaben in allgemeinen und medizinischen Domänen signifikant verbessert.

Shentong Mo, Xufang Luo, Dongsheng Li2026-02-27🤖 cs.AI

Velocity and stroke rate reconstruction of canoe sprint team boats based on panned and zoomed video recordings

Diese Studie stellt ein automatisiertes, auf KI-basierendes Framework vor, das mittels YOLOv8, U-Net und optischem Fluss aus gepanzerten und herangezoomten Videoaufnahmen präzise Geschwindigkeits- und Schlagfrequenzprofile für Kanusprint-Teamboote rekonstruiert und damit eine GPS-unabhängige Leistungsanalyse ermöglicht.

Julian Ziegler, Daniel Matthes, Finn Gerdts + 5 more2026-02-27💻 cs

Cross-Task Benchmarking of CNN Architectures

Diese Studie vergleicht fünf ResNet-18-Varianten, einschließlich verschiedener Aufmerksamkeitsmechanismen und der Omni-directional Convolution (ODConv), und zeigt, dass dynamische CNNs auf Aufgaben wie Bildklassifizierung, Segmentierung und Zeitreihenanalyse konventionellen Architekturen in Genauigkeit und Effizienz überlegen sind.

Kamal Sherawat, Vikrant Bhati2026-02-27💻 cs

MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis

Die Studie stellt MM-NeuroOnco vor, einen umfassenden multimodalen Datensatz und Benchmark für die MRI-basierte Hirntumordiagnose, der durch automatisierte Annotationen und ein neues Evaluationsframework die Entwicklung von KI-Modellen mit verbesserter klinischer Diagnosefähigkeit ermöglicht.

Feng Guo, Jiaxiang Liu, Yang Li + 2 more2026-02-27🤖 cs.AI

Can Agents Distinguish Visually Hard-to-Separate Diseases in a Zero-Shot Setting? A Pilot Study

Diese Pilotstudie untersucht die Fähigkeit von Multi-Agenten-Systemen, visuell schwer unterscheidbare Krankheiten in einem Zero-Shot-Setting zu differenzieren, und zeigt zwar durch kontrastive Adjudikation verbesserte Ergebnisse, stellt jedoch fest, dass die Leistung für den klinischen Einsatz noch nicht ausreicht.

Zihao Zhao, Frederik Hauke, Juliana De Castilhos + 2 more2026-02-27💻 cs

UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

Das Paper stellt UCM vor, ein neuartiges Framework, das durch eine zeitbewusste Positionscodierungs-Warping-Mechanismus und einen effizienten Dual-Stream-Diffusions-Transformer langfristige Szenenkonsistenz sowie präzise Kamerasteuerung in Weltmodellen für die Videogenerierung vereint.

Tianxing Xu, Zixuan Wang, Guangyuan Wang + 5 more2026-02-27💻 cs

An automatic counting algorithm for the quantification and uncertainty analysis of the number of microglial cells trainable in small and heterogeneous datasets

Diese Arbeit stellt einen automatischen, nicht-parametrischen Kernel-Zähler vor, der die Anzahl von Mikrogliazellen in heterogenen und kleinen Datensätzen quantifiziert, Unsicherheiten schätzt und dabei auf aufwendige Zellendetektion verzichtet.

L. Martino, M. M. Garcia, P. S. Paradas + 1 more2026-02-27⚡ eess

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

SubspaceAD ist eine trainingsfreie Methode zur Few-Shot-Anomalieerkennung in der industriellen Inspektion, die durch die Modellierung des Normalraums mittels PCA auf DINOv2-Features ohne Memory Banks oder Feinabstimmung neuartige State-of-the-Art-Ergebnisse auf MVTec-AD und VisA erzielt.

Camile Lendering, Erkut Akdag, Egor Bondarev2026-02-27🤖 cs.LG

Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images

Diese Arbeit stellt ein verbessertes Modell zur Erkennung kleiner Objekte in Luftbildern vor, das durch die Integration eines räumlichen Laplace-Pyramiden-Aufmerksamkeitsmoduls, einer Multi-Skalen-Feature-Verbesserung und deformierbarer Faltungen zur Ausrichtung der Feature-Pyramid-Netzwerke die Detektionsleistung auf den Datensätzen VisDrone und DOTA signifikant steigert.

Zhangjian Ji, Huijia Yan, Shaotong Qiao + 2 more2026-02-27💻 cs

D-FINE-seg: Object Detection and Instance Segmentation Framework with multi-backend deployment

Das Paper stellt D-FINE-seg vor, ein Open-Source-Framework, das den D-FINE-Transformer für die Echtzeit-Instanzsegmentierung erweitert und durch eine optimierte Multi-Backend-Pipeline (ONNX, TensorRT, OpenVINO) sowie überlegene F1-Scores auf dem TACO-Datensatz im Vergleich zu YOLO26 überzeugt.

Argo Saakyan, Dmitry Solntsev2026-02-27💻 cs

GeoWorld: Geometric World Models

Das Paper stellt GeoWorld vor, ein geometrisches Weltmodell, das durch die Abbildung latenter Repräsentationen auf hyperbolische Mannigfaltigkeiten und geometrisches Reinforcement Learning die strukturellen Grenzen bestehender energiebasierter Modelle überwindet und die Planungsleistung über mehrere Zeitschritte hinweg signifikant verbessert.

Zeyu Zhang, Danning Li, Ian Reid + 1 more2026-02-27💻 cs

Align then Adapt: Rethinking Parameter-Efficient Transfer Learning in 4D Perception

Die Arbeit stellt PointATA vor, ein parametereffizientes Transferlern-Verfahren für die 4D-Wahrnehmung, das durch eine zweistufige „Align then Adapt"-Strategie die Lücke zwischen 3D- und 4D-Daten schließt und Überanpassung vermeidet, um vortrainierte 3D-Modelle erfolgreich auf dynamische Punktwolken-Videotasks zu übertragen.

Yiding Sun, Jihua Zhu, Haozhe Cheng + 4 more2026-02-27💻 cs

Cytoarchitecture in Words: Weakly Supervised Vision-Language Modeling for Human Brain Microscopy

Die Studie stellt eine schwach überwachte Methode vor, die mithilfe von Labels und synthetischen Texten aus der Literatur bestehende Vision-Modelle für die menschliche Hirnmikroskopie mit Sprachmodellen koppelt, um cytoarchitektonische Merkmale in natürlicher Sprache zu beschreiben, ohne auf umfangreiche manuell gepaarte Bild-Text-Daten angewiesen zu sein.

Matthew Sutton, Katrin Amunts, Timo Dickscheid + 1 more2026-02-27💻 cs

Locally Adaptive Decay Surfaces for High-Speed Face and Landmark Detection with Event Cameras

Die Studie stellt „Locally Adaptive Decay Surfaces" (LADS) vor, eine neuartige Ereignisdarstellung für Event-Kameras, die durch lokale Anpassung der zeitlichen Zerfallsrate sowohl bei niedrigen als auch bei extrem hohen Frequenzen (bis 240 Hz) die Genauigkeit von Gesichts- und Landmarkenerkennung übertrifft und dabei leichtere Netzwerkarchitekturen ermöglicht.

Paul Kielty, Timothy Hanley, Peter Corcoran2026-02-27💻 cs

SpectralMamba-UNet: Frequency-Disentangled State Space Modeling for Texture-Structure Consistent Medical Image Segmentation

Die Arbeit stellt SpectralMamba-UNet vor, ein neuartiges Frequenz-entwirrendes Framework, das durch die Entkopplung von Struktur- und Texturinformationen im Spektralbereich mittels diskreter Kosinustransformation und Mamba-basierter Modellierung die Segmentierungsgenauigkeit medizinischer Bilder verbessert.

Fuhao Zhang, Lei Liu, Jialin Zhang + 2 more2026-02-27💻 cs

FLIGHT: Fibonacci Lattice-based Inference for Geometric Heading in real-Time

Die Arbeit stellt FLIGHT vor, eine neuartige Methode zur Echtzeit-Schätzung der Kamerarichtung aus monokularen Videos, die eine generalisierte Hough-Transformation auf der Einheitskugel unter Verwendung eines Fibonacci-Gitters nutzt, um auch bei hohem Rauschen und Ausreißern eine hohe Genauigkeit und Effizienz zu gewährleisten und so die Leistung von SLAM-Systemen zu verbessern.

David Dirnfeld, Fabien Delattre, Pedro Miraldo + 1 more2026-02-27💻 cs

Devling into Adversarial Transferability on Image Classification: Review, Benchmark, and Evaluation

Diese Arbeit adressiert das Fehlen eines standardisierten Bewertungsrahmens für adversarielle Transferangriffe in der Bildklassifizierung, indem sie eine umfassende Übersicht bestehender Methoden bietet, ein Benchmark-Framework einführt und Strategien zur Verbesserung der Transferierbarkeit sowie potenzielle Verzerrungen bei Vergleichen analysiert.

Xiaosen Wang, Zhijin Ge, Bohan Liu + 5 more2026-02-27🤖 cs.AI

TriLite: Efficient Weakly Supervised Object Localization with Universal Visual Features and Tri-Region Disentanglement

TriLite ist ein effizienter, einstufiger Ansatz für die schwach überwachte Objektlokalisierung, der durch die Nutzung vortrainierter Vision-Transformer und eines TriHead-Moduls zur Entwirrung von Vordergrund-, Hintergrund- und unsicheren Regionen eine neue State-of-the-Art-Leistung bei minimalem Trainierparameterbedarf und ohne aufwändiges End-to-End-Training erreicht.

Arian Sabaghi, José Oramas2026-02-27💻 cs

From Calibration to Refinement: Seeking Certainty via Probabilistic Evidence Propagation for Noisy-Label Person Re-Identification

Die Arbeit stellt CARE vor, ein zweistufiges Framework zur Personensuche mit verrauschten Labels, das durch probabilistische Evidenzpropagierung, eine Evidenzkalibrierung zur Überwindung von Softmax-Überkonfidenz und eine Evidenzverfeinerung mit kompositen Winkelrändern sowie sphärischer Gewichtung eine zuverlässigere Merkmalsdiskriminierung ermöglicht.

Xin Yuan, Zhiyong Zhang, Xin Xu + 2 more2026-02-27💻 cs

← Zurück Weiter →