Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Dieses Papier stellt eine reparametrisierte Tensor-Ring-Funktionalzerlegung vor, die mittels impliziter neuronaler Darstellungen und einer frequenzbasierten Analyse sowohl diskrete als auch kontinuierliche multidimensionale Daten effizient rekonstruiert und dabei in Aufgaben wie Bildinpainting und Punktwolkenwiederherstellung überlegene Ergebnisse erzielt.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

Die Arbeit stellt VSearcher vor, einen multimodalen Suchagenten, der durch eine Reinforcement-Learning-Pipeline und eine iterative Datensynthese statische Multimodal-Modelle in autonome Systeme verwandelt, die komplexe, langfristige Suchaufgaben im Web mit Text-, Bild- und Browser-Tools bewältigen und dabei aktuelle proprietäre Modelle übertreffen.

Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng2026-03-09💻 cs

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

Die Arbeit stellt „Think-as-You-See" (TaYS) vor, ein einheitliches Framework für Large Vision-Language Models, das durch parallele Chain-of-Thought-Generierung und spezielle Streaming-Mechanismen eine gleichzeitige, verzögerungsarme Videoanalyse ermöglicht und dabei bestehende Batch- sowie Interleaved-Ansätze in Leistung und Effizienz übertrifft.

Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

CoEditor++ ist ein trainingsfreies, kognitiv strukturiertes Framework, das durch die Zerlegung von Bildbearbeitungsaufgaben in „was" und „wie" sowie eine selbstreflektierende Auswahlmechanismus state-of-the-art Ergebnisse bei der instruktionsbasierten Bildbearbeitung erzielt und dabei sowohl die visuelle Konsistenz als auch die Interpretierbarkeit verbessert.

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Der Paper stellt Omni-C vor, einen einzigen dichten Transformer-Encoder, der durch unimodales kontrastives Vor-Training auf großen unalignierten Daten heterogene Modalitäten wie Bilder, Audio und Text effizient in gemeinsamen Repräsentationen vereint und dabei den Bedarf an Mixture-of-Expert-Architekturen, gepaarter Überwachung oder Routing-Overhead eliminiert.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Edges Are All You Need: Robust Gait Recognition via Label-Free Structure

Die Arbeit stellt SKETCHGAIT vor, ein robustes Gait-Recognition-Framework, das eine neue, label-freie visuelle Modalität namens SKETCH nutzt, um durch die Extraktion hochfrequenter Strukturränder aus RGB-Bildern die Limitationen herkömmlicher Silhouetten- und Parsing-Ansätze zu überwinden und durch eine hierarchisch entkoppelte Multi-Modal-Architektur mit komplementären Datenströmen state-of-the-art Ergebnisse zu erzielen.

Chao Zhang, Zhuang Zheng, Ruixin Li, Zhanyong Mei2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

Der vorgestellte Ansatz AutoThinkRAG verbessert das Verständnis komplexer Dokumente in der Bild-Text-Interaktion durch eine Komplexitäts-gesteuerte Aufteilung der Aufgaben zwischen einem kleinen visuellen Interpreter und einem großen Sprachmodell, was zu neuen State-of-the-Art-Ergebnissen bei geringeren Kosten führt.

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

Thinking with Spatial Code for Physical-World Video Reasoning

Die Arbeit stellt „Thinking with Spatial Code" vor, ein Framework, das RGB-Videos in explizite, zeitlich kohärente 3D-Repräsentationen umwandelt, um große Sprachmodelle durch strukturierte räumliche Codes und verstärkendes Lernen mit einem geometrischen Belohnungsschema zu befähigen, physikalische Fragen auf Videoebene präziser zu beantworten und dabei den aktuellen Stand der Technik auf dem VSI-Bench zu übertreffen.

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

Dieses Paper stellt den ersten gekoppelten Verifikationsrahmen für heatmap-basierte Schlüsselpunkt-Detektoren vor, der mittels eines gemischt-ganzzahligen linearen Programms (MILP) die gemeinsame Abweichung aller Schlüsselpunkte unter Berücksichtigung ihrer Interdependenzen formal verifiziert und damit robustere Garantien liefert als bisherige entkoppelte Ansätze.

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Das Paper stellt DreamCAD vor, ein multimodales Generierungsframework, das durch die Darstellung von BReps als differentierbare parametrische Flächen und die Nutzung der neuen CADCap-1M-Datensammlung skalierbares, bearbeitbares CAD-Design aus unannotierten 3D-Meshes und Texten erzeugt und dabei den State-of-the-Art in geometrischer Genauigkeit und Benutzerpräferenz übertrifft.

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

Dieses Paper stellt ABRA vor, eine neue Methode zur Batch-Korrektur in der Hochdurchsatz-Zellbildanalyse, die das Problem als Domänen-Generalisierung formuliert und durch adversäres Lernen sowie geometrische Randbedingungen robuste Merkmalsdarstellungen für die Klassifizierung von siRNA-Perturbationen erzeugt.

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

Die Arbeit stellt CBM-Suite vor, ein methodisches Framework, das die grundlegenden Einschränkungen von Concept Bottleneck Models durch eine Entropie-basierte Metrik zur Bewertung von Konzepten, eine nichtlineare Schicht zur Lösung des Linearitätsproblems und einen Distillationsverlust zur Verbesserung der Genauigkeit adressiert, um gleichzeitig die Interpretierbarkeit zu erhalten.

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

Die vorgestellte Arbeit führt die interpolierte FID (iFID) ein, eine einfache Variante des Rekonstruktions-FID, die durch das Interpolieren latenter Repräsentationen zwischen Datenpunkten und ihren nächsten Nachbarn erstmals eine starke Korrelation mit der Generationsqualität von Diffusionsmodellen aufweist und damit die bisherige Diskrepanz zwischen Rekonstruktions- und Generationsmetriken überwindet.

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG