cs.CV 件の論文 | Gist.Science

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

この論文は、AI 生成画像検出において事前学習された意味的知識への依存（意味的フォールバック）が汎化性能を阻害する要因であることを特定し、幾何学的制約を用いて意味成分を明示的に除去するパラメータフリーのモジュール「Geometric Semantic Decoupling (GSD)」を提案することで、未見の生成手法や異なるドメインに対する検出器の汎化性能を大幅に向上させることを示しています。

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

高解像度入力と軽量なリアルタイム推論の両立という課題に対し、本論文はインスタンスセグメンテーションを極座標表現による疎な頂点回帰として再定式化する「Poly-DETR」を提案し、高密度なピクセル単位のマスク予測への依存を排除することで、MS COCO などのデータセットにおいて既存手法を上回る精度と大幅なメモリ削減を実現しています。

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

本論文は、事前学習済みおよびカスタム設計のニューラルネットワークを統合し、交通標識・車両・車線検出ならびに行動模倣といった自律運転の主要タスクを包括的に処理するマルチモデル手法を提案し、その有効性を複数のデータセットとシミュレーターを用いて検証したものである。

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

← 前へ次へ →

cs.CV

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Towards Instance Segmentation with Polygon Detection Transformers

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Multimodal Graph Representation Learning with Dynamic Information Pathways

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Learning Convex Decomposition via Feature Fields

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

CLoE: Expert Consistency Learning for Missing Modality Segmentation

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Predictive Spectral Calibration for Source-Free Test-Time Regression