cs.CV 편의 논문 | Gist.Science

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

이 논문은 생성형 AI 에 의해 생성된 이미지의 검출 성능을 향상시키기 위해 사전 학습된 의미적 편향을 제거하고 포렌식 증거에 집중하도록 하는 '기하학적 의미 분해 (GSD)' 모듈을 제안하여 다양한 미지의 생성 방식에 대한 일반화 능력을 크게 개선했습니다.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

이 논문은 고해상도 입력과 경량 실시간 추론 간의 상충 관계를 해결하기 위해, 밀집 픽셀 예측 대신 극좌표 표현을 통한 희소 정점 회귀로 인스턴스 분할을 재정의한 'Poly-DETR'을 제안하고, 다양한 데이터셋에서 기존 마스크 기반 방법보다 뛰어난 성능과 효율성을 입증합니다.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

이 논문은 교통 표지판, 차량, 차선 감지 및 행동 모방을 위한 사전 학습 및 맞춤형 신경망을 통합한 다중 모델 접근법을 제안하여 자율 주행 차량의 인식 및 의사결정 성능을 향상시키는 방법을 종합적으로 연구합니다.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

← 이전 다음 →

cs.CV

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Towards Instance Segmentation with Polygon Detection Transformers

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Multimodal Graph Representation Learning with Dynamic Information Pathways

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Learning Convex Decomposition via Feature Fields

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

CLoE: Expert Consistency Learning for Missing Modality Segmentation

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Predictive Spectral Calibration for Source-Free Test-Time Regression