cs.CV Arbeiten | Gist.Science

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Diese Studie stellt ein neurosymbolisches System vor, das durch die Rekonstruktion von Bildern mittels visueller Primitiven strukturelle Darstellungen lernt und sich in der histologischen Bildanalyse sowohl durch höhere Klassifizierungsgenauigkeit als auch durch größere Transparenz gegenüber herkömmlichen Deep-Learning-Architekturen auszeichnet.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

Diese Arbeit stellt einen Ansatz vor, bei dem Diffusionsmodelle ihre Generierungsprozesse an die Komplexität einzelner Eingaben anpassen, indem sie unter variierenden Zeitrahmen und Rauschplänen trainiert werden, was zu einer Reduktion der erforderlichen Abtastschritte bei gleichbleibender Bildqualität führt.

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

Die Arbeit stellt Prithvi-EO-2.0 vor, ein vielseitiges, quelloffenes geospatiales Fundamentmodell, das durch Training auf 4,2 Millionen globalen Zeitreihen und die Integration von Zeit- und Orts-Embeddings signifikante Leistungssteigerungen gegenüber Vorgängermodellen und anderen geospatialen Modellen in verschiedenen Erdbeobachtungsaufgaben erzielt.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Die Arbeit stellt iLLaVA vor, eine Methode zur umfassenden Beschleunigung von Large Multimodal Models durch die gemeinsame Optimierung des Bildencoders und des LLM mittels einer neuartigen Token-Merging-Strategie, die nicht nur die Rechenzeit drastisch reduziert, sondern auch die Genauigkeit größerer Modelle im Vergleich zu kleineren verbessert.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Die Arbeit stellt HarmonicEval vor, ein referenzfreies, umfassendes Evaluationsmaß für Vision-Language-Modelle, das in einem Bottom-up-Verfahren kriterienspezifische Scores aggregiert, und führt gleichzeitig den MMHE-Benchmark mit 18.000 menschlichen Urteilen über vier multimodale Aufgaben ein, um die Generalisierbarkeit automatischer Metriken in Multi-Task-Szenarien zu verbessern.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

Der Artikel stellt LangSurf vor, eine Methode, die durch eine gemeinsame Trainingsstrategie und ein hierarchisches Kontextbewusstseinsmodul präzise sprachbasierte 3D-Segmentierung und -Bearbeitung ermöglicht, indem sie Sprach-Gaussians exakt mit den Objektoberflächen ausrichtet und so die Grenzen bestehender Ansätze wie LangSplat überwindet.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Diese Arbeit stellt eine Methode vor, die vortrainierte Vision-Language-Modelle nutzt, um abstrakte symbolische Weltmodelle aus wenigen Bild-Demonstrationen zu lernen, wodurch Roboter in der Lage sind, langfristige Entscheidungsprobleme in komplexen Umgebungen durch Planung auf neue Ziele und Szenarien zu verallgemeinern.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Diese Arbeit stellt effiziente Datenreduktionsstrategien für das semi-supervisierte adversarielle Training vor, die durch latente Clustering-Techniken die benötigte Menge an ungelabelten Daten und die Rechenzeit drastisch senken, ohne dabei die Robustheit des Modells zu beeinträchtigen.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Die Autoren stellen ein problemagnostisches, auf dem Maximum-a-Posteriori-Prinzip basiertes Diffusionsmodell vor, das durch die Schätzung eines geführten Terms unbedingte vortrainierte Modelle für inverse Bildprobleme wie Super-Resolution und Inpainting verbessert und dabei die strukturelle Kohärenz der Ergebnisse signifikant erhöht.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

Die Arbeit stellt GPC vor, ein Lernsteuerungsframework, das durch die Kombination einer generativen Diffusions-Policy, eines prädiktiven Weltmodells und eines Online-Planers die Leistung von Behavior Cloning in verschiedenen robotischen Manipulationsaufgaben sowohl in Simulation als auch in der realen Welt übertrifft.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

Das Paper stellt VL-Nav vor, ein neuro-symbolisches System, das neuronale Schlussfolgerungen mit symbolischer Führung kombiniert, um autonome Roboter bei der Navigation in komplexen, unbekannten Umgebungen basierend auf abstrakten Sprachanweisungen zu ermöglichen und dabei hohe Erfolgsraten in Simulationen und realen Tests zu erzielen.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

Die Arbeit stellt Prompt-SID vor, ein selbstüberwachtes Framework für die Einzelbild-Denoising, das mittels latenten Diffusionsprozessen strukturelle Prompts generiert und über einen Transformer-basierten Aufmerksamkeitsmechanismus integriert, um strukturelle Details zu bewahren und die Effizienz gegenüber bestehenden blind-spot-basierten Methoden zu steigern.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

LaVCa: LLM-assisted Visual Cortex Captioning

Die Studie stellt LaVCa vor, eine datengestützte Methode, die große Sprachmodelle nutzt, um präzise natürliche Sprachbeschreibungen für die Selektivität von Neuronen im visuellen Kortex zu generieren und damit tiefere Einblicke in die menschliche visuelle Repräsentation sowie feinere funktionale Differenzierungen als bisherige Ansätze ermöglicht.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Diese Studie stellt einen Algorithmus vor, der durch die Fusion von segmentierten T1-, T2-, T1ce- und FLAIR-MRT-Bildern mittels UNET und gewichteter Durchschnittsbildung sowie deren Klassifizierung mit einem ResNet50-Modell eine Genauigkeit von 99,25 % bei der Untergruppenklassifizierung von Gliomen erreicht.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Die Autoren stellen LOOP vor, eine neue Reinforcement-Learning-Methode für die Feinabstimmung von Text-zu-Bild-Diffusionsmodellen, die die Varianzreduktionstechniken von REINFORCE mit der Robustheit und Stichprobeneffizienz von PPO kombiniert, um einen besseren Ausgleich zwischen Effizienz und Leistung zu erzielen.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Die vorgestellte Arbeit verbessert die Alzheimer-Diagnose und die Vorhersage von Amyloid-Positivität bei Mittelrisiko-Patienten durch ein skalierbares, auf Transformer-Architekturen basierendes geometrisches Deep-Learning-Modell, das Tetraedermeshes mit anatomischen Landmarken verarbeitet und damit teure PET-Scans teilweise ersetzt.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

Die Arbeit stellt Snapmoji vor, ein System zur sofortigen Generierung animierbarer 3D-Avatare aus Selfies, das durch eine neuartige Gaußsche Domänenanpassung und einen Dual-Stylisierungsprozess die Identität des Nutzers bewahrt und eine effiziente mobile Darstellung ermöglicht.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Die Arbeit stellt SceneEval vor, ein Evaluierungsframework mit einem neuen Benchmark und feinkörnigen Metriken, das die semantische Kohärenz und Plausibilität textbasiert generierter 3D-Innenszenen umfassend bewertet und dabei sowohl explizite Benutzeranforderungen als auch implizite Erwartungen wie Stabilität und Navigierbarkeit berücksichtigt.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Die Autoren schlagen eine Methode vor, die durch das Hinzufügen von Störungen zu alten Feature-Prototypen die strengen Alignierungsbeschränkungen beim Backward-Compatible Learning lockert, um so die Diskriminierungsfähigkeit neuer Retrieval-Modelle zu erhalten, ohne auf zeitaufwändige Backfilling-Prozesse zurückgreifen zu müssen.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Diese Arbeit stellt eine Methode zur robusten Rekonstruktion von zwei Händen aus monokularen Bildern vor, die heterogene 2D-Strukturpriors aus Vision-Modellen mit einem kollisionsfreien Diffusionsmodell kombiniert, um Interaktionsfehler und Handdurchdringungen auch bei starken Verdeckungen zu vermeiden.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

← Zurück Weiter →