cs.CV Arbeiten | Gist.Science

Goldilocks Test Sets for Face Verification

Dieses Paper stellt drei neue, hochwertige Testdatensätze vor (Hadrian, Eclipse und ND-Twins), die ohne künstliche Bildverschlechterung die Schwierigkeit der Gesichtserkennung durch natürliche Variationen wie Bartwuchs, Belichtung und Ähnlichkeit bei Zwillingen erhöhen, um Schwächen bestehender Algorithmen aufzudecken.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Diese Arbeit identifiziert und analysiert eine unerwartete „Korruptionsphase" während des Few-Shot-Fine-Tunings von Diffusionsmodellen, die durch eine verengte Lernverteilung verursacht wird, und schlägt vor, Bayesianische Neuronale Netze zur impliziten Verbreiterung dieser Verteilung einzusetzen, um die Bildqualität und Vielfalt zu verbessern, ohne zusätzliche Inferenzkosten zu verursachen.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

RDM: Recurrent Diffusion Model for Human Motion Generation

Die Arbeit stellt RDM vor, ein rekurrentes Diffusionsmodell, das mithilfe von Normalizing Flows effizient lange, textgetreue menschliche Bewegungssequenzen generiert, indem es den rechenintensiven vollständigen Denoising-Prozess früherer Autoregressiver Ansätze umgeht.

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito2026-03-10💻 cs

Improving Visual Object Tracking through Visual Prompting

Die Arbeit stellt PiVOT vor, einen neuen Visual-Prompting-Mechanismus für das generische Objekttracking, der einen vortrainierten Fundamentmodell (CLIP) nutzt, um Online-Visual-Prompts automatisch zu generieren und zu verfeinern, wodurch der Tracker durch kontrastive Führung Störobjekte effektiv unterdrücken und die Verfolgungsleistung verbessern kann.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-10💻 cs

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

Die Arbeit stellt den Pose Prior Learner (PPL) vor, eine selbstüberwachte Methode, die ohne menschliche Annotationen allgemeine Pose-Priors für Objektkategorien lernt und so die Genauigkeit der Pose-Schätzung, insbesondere bei verdeckten Bildern, durch den Einsatz einer hierarchischen Speicherstruktur und iterativer Inferenz verbessert.

Ziyu Wang, Shuangpeng Han, Mengmi Zhang2026-03-10💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

Die Arbeit stellt ExpGest vor, ein neuartiges Diffusionsmodell, das durch die Synchronisation von Audio- und Textinformationen sowie einen speziellen Emotionsklassifikator erstmals ausdrucksstarke, kontrollierbare Ganzkörpergesten erzeugt und damit die Starrheit bestehender Upper-Body-Methoden überwindet.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Diese Studie stellt ein neurosymbolisches System vor, das durch die Rekonstruktion von Bildern mittels visueller Primitiven strukturelle Darstellungen lernt und sich in der histologischen Bildanalyse sowohl durch höhere Klassifizierungsgenauigkeit als auch durch größere Transparenz gegenüber herkömmlichen Deep-Learning-Architekturen auszeichnet.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

Diese Arbeit stellt einen Ansatz vor, bei dem Diffusionsmodelle ihre Generierungsprozesse an die Komplexität einzelner Eingaben anpassen, indem sie unter variierenden Zeitrahmen und Rauschplänen trainiert werden, was zu einer Reduktion der erforderlichen Abtastschritte bei gleichbleibender Bildqualität führt.

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

Die Arbeit stellt Prithvi-EO-2.0 vor, ein vielseitiges, quelloffenes geospatiales Fundamentmodell, das durch Training auf 4,2 Millionen globalen Zeitreihen und die Integration von Zeit- und Orts-Embeddings signifikante Leistungssteigerungen gegenüber Vorgängermodellen und anderen geospatialen Modellen in verschiedenen Erdbeobachtungsaufgaben erzielt.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Die Arbeit stellt iLLaVA vor, eine Methode zur umfassenden Beschleunigung von Large Multimodal Models durch die gemeinsame Optimierung des Bildencoders und des LLM mittels einer neuartigen Token-Merging-Strategie, die nicht nur die Rechenzeit drastisch reduziert, sondern auch die Genauigkeit größerer Modelle im Vergleich zu kleineren verbessert.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Die Arbeit stellt HarmonicEval vor, ein referenzfreies, umfassendes Evaluationsmaß für Vision-Language-Modelle, das in einem Bottom-up-Verfahren kriterienspezifische Scores aggregiert, und führt gleichzeitig den MMHE-Benchmark mit 18.000 menschlichen Urteilen über vier multimodale Aufgaben ein, um die Generalisierbarkeit automatischer Metriken in Multi-Task-Szenarien zu verbessern.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

Der Artikel stellt LangSurf vor, eine Methode, die durch eine gemeinsame Trainingsstrategie und ein hierarchisches Kontextbewusstseinsmodul präzise sprachbasierte 3D-Segmentierung und -Bearbeitung ermöglicht, indem sie Sprach-Gaussians exakt mit den Objektoberflächen ausrichtet und so die Grenzen bestehender Ansätze wie LangSplat überwindet.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Diese Arbeit stellt eine Methode vor, die vortrainierte Vision-Language-Modelle nutzt, um abstrakte symbolische Weltmodelle aus wenigen Bild-Demonstrationen zu lernen, wodurch Roboter in der Lage sind, langfristige Entscheidungsprobleme in komplexen Umgebungen durch Planung auf neue Ziele und Szenarien zu verallgemeinern.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Diese Arbeit stellt effiziente Datenreduktionsstrategien für das semi-supervisierte adversarielle Training vor, die durch latente Clustering-Techniken die benötigte Menge an ungelabelten Daten und die Rechenzeit drastisch senken, ohne dabei die Robustheit des Modells zu beeinträchtigen.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Die Autoren stellen ein problemagnostisches, auf dem Maximum-a-Posteriori-Prinzip basiertes Diffusionsmodell vor, das durch die Schätzung eines geführten Terms unbedingte vortrainierte Modelle für inverse Bildprobleme wie Super-Resolution und Inpainting verbessert und dabei die strukturelle Kohärenz der Ergebnisse signifikant erhöht.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

Die Arbeit stellt GPC vor, ein Lernsteuerungsframework, das durch die Kombination einer generativen Diffusions-Policy, eines prädiktiven Weltmodells und eines Online-Planers die Leistung von Behavior Cloning in verschiedenen robotischen Manipulationsaufgaben sowohl in Simulation als auch in der realen Welt übertrifft.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

Das Paper stellt VL-Nav vor, ein neuro-symbolisches System, das neuronale Schlussfolgerungen mit symbolischer Führung kombiniert, um autonome Roboter bei der Navigation in komplexen, unbekannten Umgebungen basierend auf abstrakten Sprachanweisungen zu ermöglichen und dabei hohe Erfolgsraten in Simulationen und realen Tests zu erzielen.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

Die Arbeit stellt Prompt-SID vor, ein selbstüberwachtes Framework für die Einzelbild-Denoising, das mittels latenten Diffusionsprozessen strukturelle Prompts generiert und über einen Transformer-basierten Aufmerksamkeitsmechanismus integriert, um strukturelle Details zu bewahren und die Effizienz gegenüber bestehenden blind-spot-basierten Methoden zu steigern.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

LaVCa: LLM-assisted Visual Cortex Captioning

Die Studie stellt LaVCa vor, eine datengestützte Methode, die große Sprachmodelle nutzt, um präzise natürliche Sprachbeschreibungen für die Selektivität von Neuronen im visuellen Kortex zu generieren und damit tiefere Einblicke in die menschliche visuelle Repräsentation sowie feinere funktionale Differenzierungen als bisherige Ansätze ermöglicht.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Diese Studie stellt einen Algorithmus vor, der durch die Fusion von segmentierten T1-, T2-, T1ce- und FLAIR-MRT-Bildern mittels UNET und gewichteter Durchschnittsbildung sowie deren Klassifizierung mit einem ResNet50-Modell eine Genauigkeit von 99,25 % bei der Untergruppenklassifizierung von Gliomen erreicht.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

← Zurück Weiter →