When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Die vorgestellte Arbeit identifiziert das Problem des „semantischen Rückfalls" bei KI-generierten Bilderkennungssystemen und schlägt mit dem parametrenfreien Modul „Geometric Semantic Decoupling" (GSD) eine Lösung vor, die durch das Entfernen semantischer Komponenten die Generalisierungsfähigkeit und Robustheit gegenüber unbekannten Manipulationen signifikant verbessert.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Das Paper stellt Poly-DETR vor, einen Transformer-basierten Ansatz, der die Instanzsegmentierung durch eine spärliche Polygon-Regressionsmethode mittels Polarrepräsentation neu formuliert und dabei sowohl die Recheneffizienz bei hochauflösenden Eingaben verbessert als auch eine überlegene Leistung gegenüber maskenbasierten Methoden in domänenspezifischen Szenarien erzielt.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Diese Studie präsentiert einen umfassenden Multi-Modell-Ansatz, der vortrainierte und benutzerdefinierte neuronale Netze für die Verkehrsschilderkennung, Fahrzeug- und Spurerkennung sowie Verhaltensnachahmung integriert, um die Robustheit und Zuverlässigkeit autonomer Fahrsysteme durch fortschrittliche Deep-Learning-Techniken und diverse Datensätze zu verbessern.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

Die vorgestellte Arbeit stellt DiP vor, ein neuartiges Framework für das multimodale Graph-Lernen, das durch modalspezifische Pseudo-Knoten und dynamische Informationspfade eine adaptive, ausdrucksstarke und lineare Komplexität aufweisende Nachrichtenweitergabe über Modalitäten hinweg ermöglicht und dabei bestehende Basismodelle in verschiedenen Benchmarks übertrifft.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong LiWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Diese Arbeit stellt ein neuartiges Framework vor, das große Mengen an Web-Videos mit impliziten Geometriedarstellungen kombiniert, um Vision-and-Language-Navigation in realistischen Umgebungen zu skalieren und gleichzeitig den Bedarf an fragiler 3D-Rekonstruktion zu umgehen.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

Die Arbeit stellt ForgeDreamer vor, ein neues Framework für die industrielle Text-zu-3D-Generierung, das durch einen Multi-Expert-LoRA-Ensemble-Mechanismus und eine Cross-View-Hypergraph-Geometrie-Verbesserung sowohl Domänenanpassungsprobleme als auch geometrische Konsistenzmängel überwindet und so eine präzise Fertigung ermöglicht.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin ZhongWed, 11 Ma💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Die Arbeit stellt SVOR vor, ein robustes Framework, das durch drei innovative Designelemente – MUSE, DA-Seg und ein zweistufiges Curriculum-Training – die Herausforderungen realer Bedingungen wie Schatten, abrupte Bewegungen und fehlerhafte Masken bei der Video-Objektentfernung bewältigt und dabei neue State-of-the-Art-Ergebnisse erzielt.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian LuanWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Das Paper stellt SPR (See, Plan, Rewind) vor, einen fortschrittsbewussten Vision-Language-Action-Rahmen, der durch dynamische Unterteilung von Aufgaben in räumliche Teilziele und einen geschlossenen Regelkreis aus Beobachtung, Planung und Rücksetzfunktion bei Fehlern die Robustheit und Generalisierung robotischer Manipulation signifikant verbessert.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

Die Arbeit stellt IntroSVG vor, einen introspektiven Generator-Kritiker-Rahmen, der durch Supervised Fine-Tuning und Direct Preference Optimization visuelle Rückmeldungen in den Generierungsprozess integriert, um die Qualität von Text-zu-SVG-Generierung durch einen iterativen „Erstellen-Überprüfen-Verfeinern"-Zyklus signifikant zu verbessern.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu GaoWed, 11 Ma💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Die Arbeit stellt SpaceSense-Bench vor, ein groß angelegtes, multimodales Benchmark-Dataset mit 136 Satellitenmodellen und präzisen Ground-Truth-Annotationen, das zur Überwindung von Datenmängeln in der Weltraumwahrnehmung dient und zeigt, dass eine Skalierung der Trainingsdaten entscheidend für die Generalisierung auf unbekannte Ziele ist.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Die Arbeit stellt OddGridBench vor, einen Benchmark zur Bewertung der Sensitivität multimodaler großer Sprachmodelle für feingranulare visuelle Diskrepanzen, und schlägt mit OddGrid-GRPO ein verstärkendes Lernframework vor, das durch Curriculum-Learning und abstandsabhängige Belohnungen die Wahrnehmungsfähigkeit dieser Modelle signifikant verbessert.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong MingWed, 11 Ma💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Die Arbeit stellt den STAR-Benchmark vor, ein Multi-Agenten-Evaluierungsframework für Nullsummenspiele, das zeigt, dass strategische Intelligenz in dynamischen Umgebungen nicht nur von der Tiefe des logischen Denkens, sondern entscheidend von der Fähigkeit abhängt, Pläne auch unter Zeitdruck schnell umzusetzen, wobei schnellere Modelle in Echtzeitszenarien oft leistungsfähiger sind als rein reasoning-intensive Modelle.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI