cs.CV Arbeiten | Gist.Science

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Die Arbeit stellt UniM vor, das erste Benchmark-Dataset für ein einheitliches „Any-to-Any"-interleaved multimodales Lernen, das 31.000 hochwertige Instanzen über sieben Modalitäten hinweg umfasst und durch eine neue Evaluierungssuite sowie ein agentenbasiertes Basismodell die Herausforderungen für die Weiterentwicklung multimodaler Großsprachenmodelle aufzeigt.

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

Das Paper stellt MoRe vor, einen effizienten Feed-forward-Transformer für die 4D-Rekonstruktion dynamischer Szenen aus monokularen Videos, der durch eine aufmerksamkeitserzwingende Strategie und gruppierte kausale Aufmerksamkeit bewegte Objekte von statischen Strukturen trennt und dabei Echtzeitfähigkeit mit hoher Qualität verbindet.

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

Die vorgestellte Arbeit führt ein neues Framework namens Orster ein, das räumliche und zeitliche Priors aus 3D- und Videodiffusionsmodellen über eine orthogonale Verteilungstransfer-Mechanik in ein entkoppeltes STD-4D-Diffusionsmodell integriert, um hochwertige 4D-Inhalte trotz fehlender großer 4D-Datensätze zu generieren.

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Die Autoren stellen eine neue Theorie für Axiomatische On-Manifold-Shapley-Attribution vor, die auf optimalen generativen Flüssen und der Minimierung der kinetischen Energie basiert, um die Probleme von Off-Manifold-Artefakten zu lösen und eine geometrisch effiziente, stabile sowie semantisch kohärente Erklärungsmethode zu gewährleisten.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

Die Arbeit stellt GEM-TFL vor, ein zweiphasiges Framework, das durch EM-gestützte Dekomposition, graphbasierte Verfeinerung und zeitliche Konsistenz die Lücke zwischen schwacher und vollständiger Aufsicht für die präzise Lokalisierung von Video- und Audiofälschungen schließt.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

Die Arbeit stellt Diff-ES vor, einen neuartigen Pruning-Ansatz für Diffusionsmodelle, der mittels evolutionärer Suche ein optimales stufenweises Sparsitäts-Schema ermittelt und durch effizientes Weight-Routing eine signifikante Beschleunigung bei minimalen Qualitätsverlusten ermöglicht.

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

Das Paper stellt BLINK vor, ein rekurrentes Zustandsraummodell, das latente Interaktionsdynamiken zwischen NK-Zellen und Tumorzellen aus Zeitreihendaten lernt, um zytotoxische Ergebnisse präziser zu erkennen, vorherzusagen und interpretierbare Verhaltensmuster aufzudecken.

Iman Nematollahi, Jose Francisco Villena-Ossa, Alina Moter + 6 more2026-03-06🤖 cs.LG

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

Das Paper stellt UniPAR vor, ein einheitliches Transformer-basiertes Framework, das durch eine innovative Datenplanung und einen dynamischen Klassifikationskopf die gleichzeitige Verarbeitung heterogener Pedestrian-Attribute-Daten aus verschiedenen Modalitäten ermöglicht und damit die Grenzen herkömmlicher, datensatzspezifischer Modelle überwindet.

Minghe Xu, Rouying Wu, Jiarui Xu + 5 more2026-03-06🤖 cs.AI

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

Die Arbeit stellt SRasP vor, eine neuartige Methode zur Selbst-Neuausrichtung adversarialer Stilstörungen, die durch globale semantische Führung und eine multi-objektive Optimierung die Gradientenstabilität verbessert und robustere Lösungen für das Few-Shot-Lernen über Domänengrenzen hinweg ermöglicht.

Wenqian Li, Pengfei Fang, Hui Xue2026-03-06🤖 cs.LG

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Die vorgestellte Arbeit stellt einen komplexitätsbewussten, adaptiven Inferenzrahmen für Vision-Language-Action-Modelle vor, der durch eine visuelle Komplexitätserkennung dynamisch zwischen sofortigem Handeln, nachdenklicher Analyse und dem Abbruch bei Unsicherheit entscheidet, um so Recheneffizienz zu steigern und katastrophale Fehler zu vermeiden.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

Die Arbeit stellt SSR-GS vor, ein Framework zur Verbesserung der Rekonstruktion glänzender Oberflächen durch die Modellierung direkter und indirekter Spiegelungen sowie die Anwendung geometrischer und visueller Priors, um die Herausforderungen komplexer Beleuchtung in der 3D-Gaussian-Splatting-Technologie zu lösen.

Ningjing Fan, Yiqun Wang2026-03-06🤖 cs.AI

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

Die Studie zeigt, dass eine einfache Lungenzuschneidung durch Begrenzungsrahmen ein wirksames Mittel ist, um das Erlernen rassistischer Kurzschlüsse in KI-Modellen für Röntgenbilder zu reduzieren, ohne dabei die diagnostische Genauigkeit zu beeinträchtigen.

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Generic Camera Calibration using Blurry Images

Die vorgestellte Arbeit adressiert das Problem der Verwacklungsunschärfe bei der generischen Kamerakalibrierung mit gedruckten Kalibrierungsbrettern, indem sie geometrische Constraints und ein lokales parametrisches Beleuchtungsmodell nutzt, um gleichzeitig Merkmalspositionen und ortsveränderliche Punktspreizfunktionen zu schätzen.

Zezhun Shi2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

Das Paper stellt Mario vor, ein einheitliches Framework, das Large Language Models durch graphenbasierte Feinabstimmung und modality-adaptive Instruktionsanpassung befähigt, effektiv auf multimodalen Graphen zu reasoning, indem es schwache konsistenz zwischen Modalitäten auflöst und heterogene Präferenzen berücksichtigt.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

Das Paper stellt Logi-PAR vor, ein bahnbrechendes Framework zur Erkennung von Patientenaktivitäten, das durch die Integration lernbarer, differenzierbarer Logikregeln nicht nur eine präzise Klassifizierung, sondern auch nachvollziehbare Erklärungen und kontrafaktische Risikoanalysen ermöglicht und dabei den Stand der Technik auf klinischen Benchmarks übertrifft.

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang + 3 more2026-03-06🤖 cs.AI

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

Die Arbeit stellt das SCDL-Framework vor, das durch das Lernen strukturierter klassenbedingter Merkmalsverteilungen und die Ausrichtung von Embeddings mit lernbaren Klassenproxies die durch Klassenungleichgewicht verursachten Verzerrungen in der semi-überwachten medizinischen Bildsegmentierung effektiv reduziert und damit insbesondere die Genauigkeit bei Minderheitsklassen verbessert.

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

Die Studie stellt SPyCer vor, ein semi-überwachtes, physikgestütztes neuronales Netzwerk mit kontextueller Aufmerksamkeit, das Satellitenbilder nutzt, um die Lücke zwischen spärlichen Bodensensoren und kontinuierlichen Schätzungen der bodennahen Lufttemperatur durch die Integration physikalischer Modelle und lokaler Bildmerkmale zu schließen.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Diese Arbeit stellt ein digitaler Zwilling-gestütztes robotisches Sortiersystem vor, das multimodale Wahrnehmung und visuelle Sprachmodelle (VLMs) integriert, um deformierbare Textilien und Fremdkörper in automatisierten Recyclingumgebungen präzise zu klassifizieren und zu handhaben.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

Die Studie stellt ICHOR vor, einen selbstüberwachten Ansatz auf Basis von Masked Autoencodern, der mithilfe einer großen, multizentrischen Datensammlung von 11.405 ASL-CBF-Scans robuste Repräsentationen für die Verbesserung diagnostischer Klassifizierung und Qualitätsvorhersage in der zerebralen Durchblutungsmessung lernt und dabei bestehende Methoden übertrifft.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

CATNet ist ein adaptives Framework, das durch eine spatio-temporale Synchronisation, eine waveletbasierte Rauschunterdrückung und eine adaptive Merkmalsauswahl die Herausforderungen von Zeitverzögerungen und Rauschen in der kooperativen Wahrnehmung überwindet und so die Robustheit unter komplexen Verkehrsbedingungen verbessert.

Gong Chen, Chaokun Zhang, Tao Tang + 3 more2026-03-06💻 cs

← Zurück Weiter →