cs.CV Arbeiten | Gist.Science

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Die vorgestellte Arbeit identifiziert das Problem des „semantischen Rückfalls" bei KI-generierten Bilderkennungssystemen und schlägt mit dem parametrenfreien Modul „Geometric Semantic Decoupling" (GSD) eine Lösung vor, die durch das Entfernen semantischer Komponenten die Generalisierungsfähigkeit und Robustheit gegenüber unbekannten Manipulationen signifikant verbessert.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Das Paper stellt Poly-DETR vor, einen Transformer-basierten Ansatz, der die Instanzsegmentierung durch eine spärliche Polygon-Regressionsmethode mittels Polarrepräsentation neu formuliert und dabei sowohl die Recheneffizienz bei hochauflösenden Eingaben verbessert als auch eine überlegene Leistung gegenüber maskenbasierten Methoden in domänenspezifischen Szenarien erzielt.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Diese Studie präsentiert einen umfassenden Multi-Modell-Ansatz, der vortrainierte und benutzerdefinierte neuronale Netze für die Verkehrsschilderkennung, Fahrzeug- und Spurerkennung sowie Verhaltensnachahmung integriert, um die Robustheit und Zuverlässigkeit autonomer Fahrsysteme durch fortschrittliche Deep-Learning-Techniken und diverse Datensätze zu verbessern.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

Die vorgestellte Arbeit stellt DiP vor, ein neuartiges Framework für das multimodale Graph-Lernen, das durch modalspezifische Pseudo-Knoten und dynamische Informationspfade eine adaptive, ausdrucksstarke und lineare Komplexität aufweisende Nachrichtenweitergabe über Modalitäten hinweg ermöglicht und dabei bestehende Basismodelle in verschiedenen Benchmarks übertrifft.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong LiWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Diese Arbeit stellt ein neuartiges Framework vor, das große Mengen an Web-Videos mit impliziten Geometriedarstellungen kombiniert, um Vision-and-Language-Navigation in realistischen Umgebungen zu skalieren und gleichzeitig den Bedarf an fragiler 3D-Rekonstruktion zu umgehen.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

Die Arbeit stellt ForgeDreamer vor, ein neues Framework für die industrielle Text-zu-3D-Generierung, das durch einen Multi-Expert-LoRA-Ensemble-Mechanismus und eine Cross-View-Hypergraph-Geometrie-Verbesserung sowohl Domänenanpassungsprobleme als auch geometrische Konsistenzmängel überwindet und so eine präzise Fertigung ermöglicht.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin ZhongWed, 11 Ma💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Die vorgestellte Arbeit verbessert die Effizienz des Trainings von 3D-Gaussian-Splatting durch neuartige Strategien und Verlustfunktionen, die die Listen der pro Pixel rendernden Gaußschen Verteilungen verkürzen, ohne dabei die Wiedergabequalität zu beeinträchtigen.

Jiaqi Liu, Zhizhong HanWed, 11 Ma💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Die Arbeit stellt SVOR vor, ein robustes Framework, das durch drei innovative Designelemente – MUSE, DA-Seg und ein zweistufiges Curriculum-Training – die Herausforderungen realer Bedingungen wie Schatten, abrupte Bewegungen und fehlerhafte Masken bei der Video-Objektentfernung bewältigt und dabei neue State-of-the-Art-Ergebnisse erzielt.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian LuanWed, 11 Ma💻 cs

Learning Convex Decomposition via Feature Fields

Diese Arbeit stellt ein neuartiges, lernbasiertes Verfahren zur Zerlegung beliebiger 3D-Objekte in konvexe Körper vor, das durch das Lernen von Feature-Feldern erstmals ein feed-forward-Modell für die offene Welt ermöglicht und dabei sowohl hohe Qualität als auch eine breite Generalisierungsfähigkeit über verschiedene Repräsentationen hinweg erreicht.

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas SharpWed, 11 Ma💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

CogBlender ist ein Framework, das durch die Interpolation von Geschwindigkeitsfeldern zwischen kognitiven Ankerpunkten eine kontinuierliche und multidimensionale Steuerung kognitiver Bildattribute wie Valenz, Erregung, Dominanz und Merkfähigkeit während der Text-zu-Bild-Generierung ermöglicht.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan CaoWed, 11 Ma💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Die Arbeit stellt MDTrack vor, einen neuartigen Multimodal-Objektverfolger, der durch modalspezifische Expertenfusion und eine entkoppelte zeitliche Propagation mittels separater State-Space-Modelle sowie Cross-Attention-Mechanismen den aktuellen Stand der Technik auf fünf Benchmarks erreicht.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong ChengWed, 11 Ma💻 cs

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

Das Paper stellt DenoiseSplat vor, eine feed-forward Methode zur 3D-Gaussian-Splatting-Rekonstruktion aus verrauschten Multi-View-Bildern, die auf einem neu erstellten Rausch-Datensatz trainiert wird und dabei ohne 3D-Grundwahrheit auskommt, um die Leistung bestehender Ansätze unter realistischen Störbedingungen zu übertreffen.

Fuzhen Jiang, Zhuoran Li, Yinlin ZhangWed, 11 Ma🤖 cs.AI

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Das Paper stellt SPR (See, Plan, Rewind) vor, einen fortschrittsbewussten Vision-Language-Action-Rahmen, der durch dynamische Unterteilung von Aufgaben in räumliche Teilziele und einen geschlossenen Regelkreis aus Beobachtung, Planung und Rücksetzfunktion bei Fehlern die Robustheit und Generalisierung robotischer Manipulation signifikant verbessert.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

Die Arbeit stellt IntroSVG vor, einen introspektiven Generator-Kritiker-Rahmen, der durch Supervised Fine-Tuning und Direct Preference Optimization visuelle Rückmeldungen in den Generierungsprozess integriert, um die Qualität von Text-zu-SVG-Generierung durch einen iterativen „Erstellen-Überprüfen-Verfeinern"-Zyklus signifikant zu verbessern.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu GaoWed, 11 Ma💻 cs

CLoE: Expert Consistency Learning for Missing Modality Segmentation

Das Paper stellt CLoE vor, einen konsistenzbasierten Lernrahmen für die Segmentierung medizinischer Bilder mit fehlenden Modalitäten, der durch Expertenkonsistenz auf Entscheidungs- und Regionsebene sowie eine zuverlässigkeitsgesteuerte Merkmalsanpassung die Robustheit und Genauigkeit bei unvollständigen Eingabedaten signifikant verbessert.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao LiWed, 11 Ma🤖 cs.AI

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

Die Arbeit stellt NLiPsCalib vor, ein effizientes Kalibrierungsframework für gekrümmte visuotaktile Sensoren, das mithilfe von Near-Light Photometric Stereo und alltäglichen Objekten eine hochpräzise 3D-Rekonstruktion ohne aufwendige Spezialgeräte ermöglicht.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Die Arbeit stellt SpaceSense-Bench vor, ein groß angelegtes, multimodales Benchmark-Dataset mit 136 Satellitenmodellen und präzisen Ground-Truth-Annotationen, das zur Überwindung von Datenmängeln in der Weltraumwahrnehmung dient und zeigt, dass eine Skalierung der Trainingsdaten entscheidend für die Generalisierung auf unbekannte Ziele ist.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Die Arbeit stellt OddGridBench vor, einen Benchmark zur Bewertung der Sensitivität multimodaler großer Sprachmodelle für feingranulare visuelle Diskrepanzen, und schlägt mit OddGrid-GRPO ein verstärkendes Lernframework vor, das durch Curriculum-Learning und abstandsabhängige Belohnungen die Wahrnehmungsfähigkeit dieser Modelle signifikant verbessert.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong MingWed, 11 Ma💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Die Arbeit stellt den STAR-Benchmark vor, ein Multi-Agenten-Evaluierungsframework für Nullsummenspiele, das zeigt, dass strategische Intelligenz in dynamischen Umgebungen nicht nur von der Tiefe des logischen Denkens, sondern entscheidend von der Fähigkeit abhängt, Pläne auch unter Zeitdruck schnell umzusetzen, wobei schnellere Modelle in Echtzeitszenarien oft leistungsfähiger sind als rein reasoning-intensive Modelle.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

Die Arbeit stellt Predictive Spectral Calibration (PSC) vor, einen quellfreien Testzeit-Anpassungsrahmen für Bildregression, der durch Block-Spektralanpassung und die Kalibrierung verbleibender spektraler Abweichungen die Leistung unter starken Verteilungsverschiebungen verbessert.

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy HieuWed, 11 Ma💻 cs

← Zurück Weiter →