cs.CV Arbeiten | Gist.Science

Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

Diese Arbeit stellt einen neuartigen, physikbasierten Rahmen für die Synthese von Mensch-Objekt-Interaktionen vor, der Vision-Language-Modelle nutzt, um durch eine automatisch entworfene relative Bewegungs-Dynamik (RMD) langlebige und vielfältige Interaktionen ohne manuelles Reward-Engineering zu ermöglichen.

Zekai Deng, Ye Shi, Kaiyang Ji + 3 more2026-03-05💻 cs

Generating Fine Details of Entity Interactions

Diese Arbeit stellt \data, einen interaktionsfokussierten Datensatz, und \model, ein neues Verfahren zur Verfeinerung von Text-zu-Bild-Generierung durch Zerlegung und MLLM-gestützte Kritik, vor, um die Darstellung komplexer Objektinteraktionen zu verbessern.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

Die Studie stellt „Inception" vor, den ersten Multi-Turn-Jailbreak-Angriff auf Text-zu-Bild-Systeme, der deren Speichermechanismen ausnutzt, um durch segmentierte und rekursive Prompt-Manipulation Sicherheitsfilter zu umgehen und die Erfolgsrate von Angriffen signifikant zu steigern.

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Intelligent Diagnosis Using Dual-Branch Attention Network for Rare Thyroid Carcinoma Recognition with Ultrasound Imaging

Die Studie stellt ein neuartiges Multitask-Learning-Framework namens CSASN vor, das durch die Kombination von EfficientNet und Vision-Transformern mit einem dualen Aufmerksamkeitsmechanismus die präzise Erkennung seltener Schilddrüsenkarzinome in Ultraschallbildern trotz heterogener Merkmale und Datenungleichgewichts ermöglicht.

Peiqi Li, Yincheng Gao, Renxing Li + 10 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Diese Arbeit charakterisiert das von Apple in iPhone-Porträtmodi erzeugte synthetische Defokus-Rauschmuster (SDNP), entwickelt Methoden zu dessen präziser Modellierung und zeigt auf, wie dessen Berücksichtigung die Zuverlässigkeit von PRNU-basierten forensischen Quellenverifizierungen verbessert und neue Spuren für die Geräteidentifizierung bietet.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Die Arbeit stellt MoB vor, eine Methode zur visuellen Token-Pruning, die durch die Formulierung als bi-zielgerichtetes Abdeckungsproblem und die Nutzung von Hausdorff-Distanz sowie $\epsilon$ -Abdeckungstheorie einen optimalen Kompromiss zwischen Prompt-Ausrichtung und visueller Erhaltung findet, wodurch bei Multimodalen Large Language Models wie LLaVA eine signifikante Beschleunigung bei minimalem Leistungsverlust erreicht wird.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

From Press to Pixels: Evolving Urdu Text Recognition

Diese Studie stellt eine vergleichende Analyse traditioneller OCR-Systeme und moderner Large Language Models (LLMs) für die Erkennung von Urdu-Zeitungstexten vor, bei der durch die Einführung des neu annotierten Urdu Newspaper Benchmark (UNB) sowie durch Optimierungen wie Super-Resolution und Feinabstimmung gezeigt wird, dass angepasste LLMs wie GPT-4o und Gemini-2.5-Pro die Genauigkeit bei komplexen Nastaliq-Schriften erheblich steigern können.

Samee Arif, Sualeha Farid2026-03-05💻 cs

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Die Arbeit stellt eine extrem einfache und theoretisch fundierte Methode namens Feature Mixing zur Synthese multimodaler Ausreißer für die Verbesserung der Out-of-Distribution-Erkennung und -Segmentierung vor, ergänzt durch einen neuen Datensatz namens CARLA-OOD, und demonstriert damit einen neuen State-of-the-Art mit einer bis zu 370-fachen Geschwindigkeitssteigerung.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Dieses Paper stellt das BAH-Dataset vor, eine multimodale Videodatenbank mit 1.427 Aufnahmen von 300 Teilnehmern, die zur automatischen Erkennung von Ambivalenz und Zögern in digitalen Verhaltensänderungsinterventionen dient und erste Benchmark-Ergebnisse für die Entwicklung angepasster Modelle liefert.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

Die Arbeit stellt TADA vor, ein Framework zur gezielten Bildaugmentation mittels Diffusionsmodellen, das durch selektive Erweiterung nur derjenigen Trainingsdaten, die zu Beginn des Lernprozesses noch nicht erfasst wurden, die Generalisierungsfähigkeit von Bildklassifizierern effizient verbessert und dabei den Rechenaufwand im Vergleich zu herkömmlichen Methoden signifikant reduziert.

Dang Nguyen, Jiping Li, Jinghao Zheng + 1 more2026-03-05🤖 cs.LG

Structural Vibration Monitoring with Diffractive Optical Processors

Die Autoren stellen ein energieeffizientes und kostengünstiges System zur strukturellen Schwingungsüberwachung vor, das eine gemeinsam optimierte diffraktive Schicht mit einem neuronalen Netz kombiniert, um 3D-Schwingungsspektren von Bauwerken präzise und in Echtzeit zu rekonstruieren.

Yuntian Wang, Zafer Yilmaz, Yuhang Li + 5 more2026-03-05🔬 physics.optics

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

Das Paper stellt EgoWorld vor, ein neuartiges Framework, das mithilfe von reichhaltigen exozentrischen Beobachtungen wie Punktwolken, 3D-Handposen und Textbeschreibungen sowie einem Diffusionsmodell eine robuste und generalisierbare Übersetzung von Drittanbieter- in Egoperspektiven für AR-, VR- und Robotikanwendungen ermöglicht.

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

Partial Weakly-Supervised Oriented Object Detection

Die vorgestellte Arbeit schlägt das PWOOD-Framework vor, das durch die Kombination von partiell schwachen Annotationen, einem orientierungs- und skalensensitiven Schülermodell sowie einer klassenunabhängigen Filterstrategie die Kosten für die Annotation von orientierten Objekterkennungsaufgaben senkt und dabei die Leistung halbüberwachter Methoden erreicht oder übertrifft.

Mingxin Liu, Peiyuan Zhang, Yuan Liu + 8 more2026-03-05💻 cs

Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

Die vorgestellte Arbeit entwickelt „Fast Equivariant Imaging" (FEI), ein neuartiges unüberwachtes Lernframework, das durch die Kombination von Augmented Lagrangian und Plug-and-Play-Denoisern das Training von Bildgebungsnetzwerken ohne Ground-Truth-Daten um den Faktor 10 beschleunigt und gleichzeitig die Generalisierungsleistung verbessert.

Guixian Xu, Jinglai Li, Junqi Tang2026-03-05🤖 cs.LG

D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping

Der Artikel stellt D2Dewarp vor, ein tiefes Lernmodell zur Entzerrung von Dokumentenbildern, das durch eine feingranulare Wahrnehmung von Verzerrungen in horizontaler und vertikaler Richtung sowie einen neuen annotierten Datensatz (DocDewarpHV) einen neuen Stand der Technik erreicht.

Heng Li, Xiangping Wu, Qingcai Chen2026-03-05💻 cs

VITA: Vision-to-Action Flow Matching Policy

Das Paper stellt VITA vor, ein effizientes, visuell fundiertes Flow-Matching-Rahmenwerk, das durch den direkten Übergang von visuellen Repräsentationen zu latenten Aktionen ohne iterative Denoising-Prozesse oder visuelle Konditionierung die Inferenzgeschwindigkeit um das 1,5- bis 2-Fache steigert und dabei die Leistungsfähigkeit bestehender State-of-the-Art-Policies erreicht oder übertrifft.

Dechen Gao, Boqi Zhao, Andrew Lee + 6 more2026-03-05🤖 cs.AI

Classification of Histopathology Slides with Persistent Homology Convolutions

Die Studie stellt eine neuartige Methode namens „Persistent Homology Convolutions" vor, die lokale topologische Merkmale in histopathologischen Bildern erfasst und dadurch die Klassifizierungsgenauigkeit sowie die Robustheit gegenüber Hyperparametern im Vergleich zu herkömmlichen CNN-Architekturen verbessert.

Shrunal Pothagoni, Benjamin Schweinhart2026-03-05💻 cs

Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning

Die vorgestellte Arbeit stellt Image-Adaptive Prompt Learning (IAPL) vor, ein neuartiges Verfahren zur Erkennung KI-generierter Bilder, das durch dynamische, bildspezifische Prompt-Anpassungen während der Inferenz eine überlegene Generalisierungsfähigkeit auf unbekannte Fälschungen erreicht und dabei State-of-the-Art-Ergebnisse erzielt.

Yiheng Li, Zichang Tan, Guoqing Xu + 3 more2026-03-05💻 cs

GaitSnippet: Gait Recognition Beyond Unordered Sets and Ordered Sequences

Der Artikel stellt GaitSnippet vor, eine neue Methode zur Gangerkennung, die Silhouetten als zufällige Snippets aus kontinuierlichen Sequenzen behandelt, um durch die Kombination von Multi-Scale-Temporal-Kontext die Limitationen bestehender set- und sequenzbasierter Ansätze zu überwinden und dabei auf vier Datensätzen hohe Genauigkeitswerte zu erzielen.

Saihui Hou, Chenye Wang, Wenpeng Lang + 2 more2026-03-05💻 cs

Reinforcing Video Reasoning Segmentation to Think Before It Segments

Das Paper stellt Veason-R1 vor, ein spezialisiertes Large Vision Language Model für das Video-Reasoning-Segmentieren, das durch eine Kombination aus Chain-of-Thought-Initialisierung und Group Relative Policy Optimization (GRPO) strukturiertes räumlich-zeitliches Denken erlernt und damit den aktuellen Stand der Technik in mehreren Benchmarks deutlich übertrifft.

Sitong Gong, Lu Zhang, Yunzhi Zhuge + 3 more2026-03-05💻 cs

← Zurück Weiter →