Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference)

Die Autoren stellen eine neuartige Matrix-Kodierungsmethode namens „Volley Revolver" vor, die es ermöglicht, eine convolutional Neural Network für die Klassifizierung handschriftlicher Bilder effizient und datenschutzkonform unter Verwendung von homomorpher Verschlüsselung durchzuführen, wobei 32 verschlüsselte MNIST-Bilder auf einer öffentlichen Cloud in etwa 287 Sekunden verarbeitet werden.

John Chiang2026-03-05💻 cs

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

Der Artikel stellt GeoTop vor, ein mathematisch fundiertes Framework, das Topologische Datenanalyse und Lipschitz-Killing-Krümmungen vereint, um die Unterscheidung zwischen gutartigen und bösartigen Strukturen in der diagnostischen Bildgebung durch die Kombination topologischer Invarianz mit geometrischer Sensitivität zu verbessern und dabei sowohl die Genauigkeit als auch die Interpretierbarkeit zu steigern.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

Die Arbeit stellt Export3D vor, eine Methode zur einmaligen, 3D-bewussten Porträtanimation, die durch einen neuartigen Tri-Plane-Generator und ein kontrastives Vor-Training Ausdrücke und Kameraperspektiven steuern kann, ohne dabei bei ausdruckskontrollierter Animation über verschiedene Identitäten hinweg unerwünschte Gesichtsmerkmale zu übertragen.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Matching

Die Arbeit stellt FireANTs vor, einen training-freien, GPU-beschleunigten multi-skalierten adaptiven Riemannschen Optimierungsalgorithmus für die dichte diffeomorphe Bildregistrierung, der im Vergleich zu bestehenden Methoden eine deutlich schnellere Verarbeitung, einen geringeren Speicherbedarf und eine hohe Robustheit über verschiedene Modalitäten hinweg bietet.

Rohit Jena, Pratik Chaudhari, James C. Gee2026-03-05💻 cs

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

Das Paper stellt Merlin vor, ein dreidimensionales Vision-Language-Foundation-Modell, das mithilfe eines mehrstufigen Vortrainings auf einem großen Datensatz aus CT-Scans, Diagnosedaten und radiologischen Berichten trainiert wurde und bei der automatisierten Analyse von Bauch-CTs verschiedene diagnostische, prognostische und qualitative Aufgaben besser bewältigt als bestehende 2D-Modelle.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

Die Arbeit stellt VideoMindPalace vor, ein neuartiges Framework, das mithilfe von handgestützter Objektverfolgung, Aktivitätszonen und Umgebungslandkarten semantische Graphen zur strukturierten Analyse langer Videos erstellt, um die räumlich-zeitliche Kohärenz und das menschenähnliche Schlussfolgern von Large Vision Language Models zu verbessern.

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs