cs.CV Arbeiten | Gist.Science

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Dieses Papier stellt eine reparametrisierte Tensor-Ring-Funktionalzerlegung vor, die mittels impliziter neuronaler Darstellungen und einer frequenzbasierten Analyse sowohl diskrete als auch kontinuierliche multidimensionale Daten effizient rekonstruiert und dabei in Aufgaben wie Bildinpainting und Punktwolkenwiederherstellung überlegene Ergebnisse erzielt.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters

Das Paper stellt FastLightGen vor, einen Algorithmus, der durch eine synergistische Wissensdistillation große Videogenerierungsmodelle in schnelle, leichte Varianten umwandelt, die bei gleichzeitiger Reduzierung der Inferenzschritte und der Parameterzahl die bisherige State-of-the-Art-Leistung in der effizienten Videogenerierung erreichen.

Shitong Shao, Yufei Gu, Zeke Xie2026-03-09💻 cs

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

Die Arbeit stellt VSearcher vor, einen multimodalen Suchagenten, der durch eine Reinforcement-Learning-Pipeline und eine iterative Datensynthese statische Multimodal-Modelle in autonome Systeme verwandelt, die komplexe, langfristige Suchaufgaben im Web mit Text-, Bild- und Browser-Tools bewältigen und dabei aktuelle proprietäre Modelle übertreffen.

Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng2026-03-09💻 cs

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

Die Arbeit stellt „Think-as-You-See" (TaYS) vor, ein einheitliches Framework für Large Vision-Language Models, das durch parallele Chain-of-Thought-Generierung und spezielle Streaming-Mechanismen eine gleichzeitige, verzögerungsarme Videoanalyse ermöglicht und dabei bestehende Batch- sowie Interleaved-Ansätze in Leistung und Effizienz übertrifft.

Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

CoEditor++ ist ein trainingsfreies, kognitiv strukturiertes Framework, das durch die Zerlegung von Bildbearbeitungsaufgaben in „was" und „wie" sowie eine selbstreflektierende Auswahlmechanismus state-of-the-art Ergebnisse bei der instruktionsbasierten Bildbearbeitung erzielt und dabei sowohl die visuelle Konsistenz als auch die Interpretierbarkeit verbessert.

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

RoboLayout: Differentiable 3D Scene Generation for Embodied Agents

Das Paper stellt RoboLayout vor, eine Erweiterung von LayoutVLM, die durch die Integration expliziter Erreichbarkeitsbeschränkungen und einer lokalen Verfeinerung differenzierbare 3D-Layouts für embodied Agents generiert, die sowohl semantisch kohärent als auch physisch für diverse Agenten wie Roboter oder Menschen navigierbar und handhabbar sind.

Ali Shamsaddinlou2026-03-09🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Der Paper stellt Omni-C vor, einen einzigen dichten Transformer-Encoder, der durch unimodales kontrastives Vor-Training auf großen unalignierten Daten heterogene Modalitäten wie Bilder, Audio und Text effizient in gemeinsamen Repräsentationen vereint und dabei den Bedarf an Mixture-of-Expert-Architekturen, gepaarter Überwachung oder Routing-Overhead eliminiert.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Clinical-Injection Transformer with Domain-Adapted MAE for Lupus Nephritis Prognosis Prediction

Die Studie stellt einen neuartigen multimodalen Deep-Learning-Ansatz vor, der klinische Daten mit routinemäßigen PAS-gefärbten Nierenbiopsien kombiniert, um die Prognose der Lupus-Nephritis bei pädiatrischen Patienten mit hoher Genauigkeit vorherzusagen.

Yuewen Huang, Zhitao Ye, Guangnan Feng, Fudan Zheng, Xia Gao, Yutong Lu2026-03-09🤖 cs.LG

Edges Are All You Need: Robust Gait Recognition via Label-Free Structure

Die Arbeit stellt SKETCHGAIT vor, ein robustes Gait-Recognition-Framework, das eine neue, label-freie visuelle Modalität namens SKETCH nutzt, um durch die Extraktion hochfrequenter Strukturränder aus RGB-Bildern die Limitationen herkömmlicher Silhouetten- und Parsing-Ansätze zu überwinden und durch eine hierarchisch entkoppelte Multi-Modal-Architektur mit komplementären Datenströmen state-of-the-art Ergebnisse zu erzielen.

Chao Zhang, Zhuang Zheng, Ruixin Li, Zhanyong Mei2026-03-09💻 cs

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

Diese Arbeit stellt einen digitalen-Zwilling-gestützten V2X-Ansatz zur Vorhersage von Trajektorien an städtischen Kreuzungen vor, der durch eine neuartige „Twin Loss"-Funktion neben der Genauigkeit auch die Einhaltung von Verkehrsregeln und die Vermeidung von Kollisionen sicherstellt.

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

Der vorgestellte Ansatz AutoThinkRAG verbessert das Verständnis komplexer Dokumente in der Bild-Text-Interaktion durch eine Komplexitäts-gesteuerte Aufteilung der Aufgaben zwischen einem kleinen visuellen Interpreter und einem großen Sprachmodell, was zu neuen State-of-the-Art-Ergebnissen bei geringeren Kosten führt.

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Die Arbeit stellt BISE vor, eine Methode, die es ermöglicht, durch Pruning vortrainierte, voreingenommene neuronale Netze in faire und robuste Unterstrukturen zu überführen, ohne zusätzliche Daten oder ein erneutes Training zu benötigen.

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione2026-03-09🤖 cs.LG

Thinking with Spatial Code for Physical-World Video Reasoning

Die Arbeit stellt „Thinking with Spatial Code" vor, ein Framework, das RGB-Videos in explizite, zeitlich kohärente 3D-Repräsentationen umwandelt, um große Sprachmodelle durch strukturierte räumliche Codes und verstärkendes Lernen mit einem geometrischen Belohnungsschema zu befähigen, physikalische Fragen auf Videoebene präziser zu beantworten und dabei den aktuellen Stand der Technik auf dem VSI-Bench zu übertreffen.

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

Dieses Paper stellt den ersten gekoppelten Verifikationsrahmen für heatmap-basierte Schlüsselpunkt-Detektoren vor, der mittels eines gemischt-ganzzahligen linearen Programms (MILP) die gemeinsame Abweichung aller Schlüsselpunkte unter Berücksichtigung ihrer Interdependenzen formal verifiziert und damit robustere Garantien liefert als bisherige entkoppelte Ansätze.

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Das Paper stellt DreamCAD vor, ein multimodales Generierungsframework, das durch die Darstellung von BReps als differentierbare parametrische Flächen und die Nutzung der neuen CADCap-1M-Datensammlung skalierbares, bearbeitbares CAD-Design aus unannotierten 3D-Meshes und Texten erzeugt und dabei den State-of-the-Art in geometrischer Genauigkeit und Benutzerpräferenz übertrifft.

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

Dieses Paper stellt ABRA vor, eine neue Methode zur Batch-Korrektur in der Hochdurchsatz-Zellbildanalyse, die das Problem als Domänen-Generalisierung formuliert und durch adversäres Lernen sowie geometrische Randbedingungen robuste Merkmalsdarstellungen für die Klassifizierung von siRNA-Perturbationen erzeugt.

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

Die Arbeit stellt den „Post Fusion Stabilizer" (PFS) vor, einen leichten Modul, der die Robustheit bestehender multimodaler 3D-Erkennungssysteme gegenüber Domänenverschiebungen und Sensoreffekten verbessert, ohne deren Architektur grundlegend zu verändern oder neu trainieren zu müssen.

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

Die Arbeit stellt CBM-Suite vor, ein methodisches Framework, das die grundlegenden Einschränkungen von Concept Bottleneck Models durch eine Entropie-basierte Metrik zur Bewertung von Konzepten, eine nichtlineare Schicht zur Lösung des Linearitätsproblems und einen Distillationsverlust zur Verbesserung der Genauigkeit adressiert, um gleichzeitig die Interpretierbarkeit zu erhalten.

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

Die vorgestellte Arbeit führt die interpolierte FID (iFID) ein, eine einfache Variante des Rekonstruktions-FID, die durch das Interpolieren latenter Repräsentationen zwischen Datenpunkten und ihren nächsten Nachbarn erstmals eine starke Korrelation mit der Generationsqualität von Diffusionsmodellen aufweist und damit die bisherige Diskrepanz zwischen Rekonstruktions- und Generationsmetriken überwindet.

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Die Arbeit stellt Implicit Error Counting (IEC) vor, eine Referenz-freie Reinforcement-Learning-Methode, die durch die Zählung und Gewichtung von Fehlern anstelle der Verwendung von Rubriken effektiv Post-Training für virtuelle Anproben optimiert, wo ideale Referenzantworten nicht verfügbar sind.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

← Zurück Weiter →