Willkommen bei Gist.Science

Forschungsarbeiten,
verständlich erklärt.

Wir lesen die neuesten Paper von arXiv, bioRxiv und medRxiv und erstellen verständliche Erklärungen, Kernaussagen und technische Zusammenfassungen — in zehn Sprachen.

97,601 Arbeiten erklärt in 10 Sprachen·Letzte Arbeit hinzugefügt 8h ago
📄Wir lesen die ganze ArbeitNicht nur die Zusammenfassung — jedes Wort
🧠Wir vereinfachen esAnalogien, Metaphern, einfache Sprache
🌎In 10 SprachenNativ generiert, nicht maschinell uebersetzt

Für Forscher: Bleiben Sie auf dem Laufenden

Zu viele Arbeiten, zu wenig Zeit. Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsinteressen — mit technischen Zusammenfassungen in Ihrer Sprache.

Digest testen →

Vision-Encoder Behavioral Fingerprints of Image-to-Image Generative Models: A Training-Paradigm-Driven Taxonomy of Six Commercial APIs

Dieses Paper schlägt eine durch das Trainingsparadigma getriebene Taxonomie von sechs kommerziellen Image-to-Image-generativen Modellen vor und zeigt auf, dass diese sich basierend auf ihrer Reaktion auf inhaltsadaptive Sub-JND-adversarielle Perturbationen, gemessen via gefrorener DINOv2-Token-Distanzen, in zwei distinkte Verhaltenscluster unterteilen lassen – edit-trained versus sampling-time adapted.

Hunter Hill2026-06-16💻 cs

Variational Deep Unfolding with Mamba-Based Nonlocal Modeling for Underwater Image Enhancement

Dieses Paper schlägt ein variatinales Deep-Unfolding-Netzwerk zur Verbesserung von Unterwasserbildern vor, das eine auf Entzisung basierende variatiale Formulierung mit Mamba-Layern für effiziente nichtlokale Modellierung und einem proximalen Trajektorienverlust kombiniert, um eine überlegene visuelle und quantitative Leistung zu erzielen.

Daniel Torres, Julia Navarro, Catalina Sbert, Joan Duran2026-06-16💻 cs

Unified KV Pooling to Accelerate Long-Context LLM Serving

Dieses Paper schlägt „Unified KV Pooling“ vor, ein System, das mehrere Host-Speichermodule und SSDs zu einem einzigen logischen Pool aggregiert und einen User-Space-„KV-Passthrough“-Mechanismus verwendet, um den Kernel-Dateisystem-Overhead zu umgehen, wodurch die Latenz beim Serving von LLMs mit langem Kontext um bis zu 4,1-fach reduziert wird und strikte Time-To-First-Token-Anforderungen erfüllt werden.

Minchul Kang, Changyong Shin, Jinwoo Jeong, Jaerim Park, Woohyun Kim, Bonyul Gu, Dongwoo Kang, Gyeongsik Yang, Chuck Yoo2026-06-16💻 cs

Schema-Agnostic Process Trace Construction: From Raw Tables to Execution Behavior

Dieses Paper schlägt eine schema-agnostische Pipeline vor, die automatisch hochgetreue Prozess-Ausführungstraces aus rohen, lose miteinander verknüpften relationalen Tabellen rekonstruiert, indem sie statistisch Schlüssel- und Zeitattribute identifiziert, Verknüpfungen zwischen Tabellen entdeckt und ein Temporal Convolutional Network nutzt, um die Ereignisreihenfolge zu modellieren, wodurch die Notwendigkeit vordefinierter Schemata oder Domänen-Templates in dynamischen Informationssystemen eliminiert wird.

Joel Lim Zhi Quan, Tan Kar Way, Lau Hoong Chuin2026-06-16💻 cs

Style-CCL: Content-Preserving Style Transfer via Curriculum Continual Learning

Dieses Paper schlägt Style-CCL vor, ein mehrstufiges Curriculum-Continual-Learning-Framework, das einen Dual-Branch-Style-Content-Diffusion-Transformer auf einem Millionen-großen Datensatz trainiert, um semantische und texturelle Stile effektiv zu entkoppeln und dadurch eine State-of-the-Art-Leistung bei inhaltsbewahrendem Style Transfer zu erzielen, während gleichzeitig katastrophales Vergessen vermieden wird.

Shiwen Zhang, Haoyuan Wang, Xianghao Zang, Haibin Huang, Chi Zhang, Xuelong Li2026-06-16💻 cs

GridVQA-X: A Framework for Evaluating Multimodal Explainability Methods

Dieses Paper führt GridVQA-X ein, ein neuartiges diagnostisches Framework, das mathematisch garantierte synthetische Erklärungen nutzt, um Methoden der multimodalen erklärbaren KI rigoros zu evaluieren und aufzuzeigen, dass aktuelle Ansätze daran scheitern, zwischen echtem cross-modalem Schließen und oberflächlichen Feature-Matching-Abkürzungen zu unterscheiden.

Sujay Belsare, Sudarshan Nikhil, Sushant Kumar, Ponnurangam Kumaraguru, Chirag Agarwal2026-06-16💻 cs

UtVAA: Ultra-tiny Vision Transformer with Affix Attention for Mobile Image Classification

Dieses Paper stellt UtVAA vor, eine ultra-kleine Vision-Transformer-Architektur mit einem neuartigen Affix-Attention-Block und Dilated-Bottleneck-Blöcken, die eine wettbewerbsfähige Genauigkeit bei der Bildklassifizierung auf mobilen Geräten und Edge-Geräten mit einer Parameteranzahl von unter einer Million erreicht.

Romiyal George, Sathiyamohan Nishankar, Selvarajah Thuseethan, Roshan G. Ragel2026-06-16💻 cs

BBR-Net: Boundary-Balanced Replay for Continual Medical Image Segmentation

Dieses Paper schlägt BBR-Net vor, ein Framework für kontinuierliches Lernen zur medizinischen Bildsegmentierung, das randbewusstes und klassenbalanciertes Replay nutzt, um anatomische Strukturen zu bewahren, und zeigt damit auf, dass die Effektivität der Wissensretention unter Domänenwechseln kritisch von der strukturellen Zuverlässigkeit gespeicherter Replay-Proben abhängt und nicht allein von der Speicherkapazität.

Zahid Ullah, Sieun Choi, Jihie Kim2026-06-16💻 cs

Nach Kategorie durchsuchen