When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

この論文は、AI 生成画像検出において事前学習された意味的知識への依存(意味的フォールバック)が汎化性能を阻害する要因であることを特定し、幾何学的制約を用いて意味成分を明示的に除去するパラメータフリーのモジュール「Geometric Semantic Decoupling (GSD)」を提案することで、未見の生成手法や異なるドメインに対する検出器の汎化性能を大幅に向上させることを示しています。

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

高解像度入力と軽量なリアルタイム推論の両立という課題に対し、本論文はインスタンスセグメンテーションを極座標表現による疎な頂点回帰として再定式化する「Poly-DETR」を提案し、高密度なピクセル単位のマスク予測への依存を排除することで、MS COCO などのデータセットにおいて既存手法を上回る精度と大幅なメモリ削減を実現しています。

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

本論文は、事前学習済みおよびカスタム設計のニューラルネットワークを統合し、交通標識・車両・車線検出ならびに行動模倣といった自律運転の主要タスクを包括的に処理するマルチモデル手法を提案し、その有効性を複数のデータセットとシミュレーターを用いて検証したものである。

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

この論文は、画像やテキストなど異種の特徴を持つマルチモーダルグラフにおいて、静的な構造や密なアテンションに依存する既存手法の限界を克服し、モダリティ固有の擬似ノードと動的な情報経路を活用することで、適応的かつ効率的なグラフ表現学習を実現する「DiP」と呼ばれる新しいフレームワークを提案し、複数のベンチマークで優れた性能を示したことを述べています。

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong LiWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

本論文は、ウェブ動画から大規模な視覚言語ナビゲーション学習フレームワークを構築し、3D 復元を不要とする隐幾何表現を導入することで、実世界環境でのナビゲーション性能と汎用性を大幅に向上させたことを報告しています。

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

本論文は、産業分野におけるテキストから 3D 生成の課題であるドメイン適応と幾何学的推論の欠如を解決するため、カテゴリ間干渉を排除するマルチエキスパート LoRA 集合体と、高次構造依存関係を捉えるクロスビューハイパーグラフ幾何強化を導入した「ForgeDreamer」という新たなフレームワークを提案しています。

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin ZhongWed, 11 Ma💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

この論文は、影、急激な動き、マスクの欠陥といった現実世界の不完美な条件下でも、MUSE、DA-Seg、カリキュラム学習に基づく 2 段階トレーニングという 3 つの主要な設計により、時間的安定性と視覚的一貫性を維持しながら物体を安定して除去する新しいフレームワーク「SVOR」を提案し、動画物体除去を理想的な環境から実世界応用へと進展させるものです。

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian LuanWed, 11 Ma💻 cs

Learning Convex Decomposition via Feature Fields

この論文は、古典的な凸性の定義に基づく自己教師ありの幾何学的目的関数を用いて連続的な特徴場を学習し、物理シミュレーションの衝突検出などに応用可能な高品質な凸分解を、メッシュやCAD モデル、ガウシアンスプラットなど多様な 3D 表現に対して汎用的に実行できる最初のフィードフォワードモデルを提案するものである。

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas SharpWed, 11 Ma💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

CogBlender は、認知空間と意味多様体のマッピングとフローマッチング手法の再定式化により、画像生成プロセスにおいて価性や覚醒度などの認知属性を連続的かつ多角的に制御し、意図した心理的効果を持つ画像を生成する新しいフレームワークを提案するものです。

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan CaoWed, 11 Ma💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

本論文は、マルチモーダル物体追跡において既存手法の課題である均一な融合と時系列情報の混在を解決するため、モダリティ固有の融合と時系列情報の分離伝達を実現する新しいフレームワーク「MDTrack」を提案し、複数のベンチマークで最先端の性能を達成したことを示しています。

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong ChengWed, 11 Ma💻 cs

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

この論文は、ノイズの多いマルチビュー画像からの 3D シーン再構成を目的とした、大規模なノイズ付きデータセットを構築し、3D Ground Truth を必要とせずクリーンな 2D レンダリングのみで教師あり学習を行う軽量なフィードフォワード手法「DenoiseSplat」を提案するものです。

Fuzhen Jiang, Zhuoran Li, Yinlin ZhangWed, 11 Ma🤖 cs.AI

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

本論文は、タスクの進捗を可視的なマイルストーンとして監視し、失敗時に状態を巻き戻す「See, Plan, Rewind (SPR)」という新しいビジョン・言語・アクションフレームワークを提案し、追加学習なしでロボットの操作タスクにおける堅牢性と未知環境への適応能力を大幅に向上させることを示しています。

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

本論文は、生成された SVG のレンダリング結果を視覚的に評価し、そのフィードバックを生成プロセスに閉ループで組み込む「イントロスペクティブな生成器・批評家フレームワーク(IntroSVG)」を提案し、これにより既存の手法を凌駕する複雑で意味整合性の高い高品質なテキストから SVG への生成を実現したことを述べています。

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu GaoWed, 11 Ma💻 cs

CLoE: Expert Consistency Learning for Missing Modality Segmentation

本論文は、マルチモーダル医療画像セグメンテーションにおいて欠損モダリティが生じる際の問題に対処するため、モダリティ専門家間の合意を制御する「CLoE」という一貫性学習フレームワークを提案し、欠損状況下でも臨床的に重要な構造のセグメンテーション性能を向上させることを実証したものである。

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao LiWed, 11 Ma🤖 cs.AI

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

本論文は、従来の較正が手間とコストを要していた湾曲視触覚センサーに対し、身近な物体との数回の接触だけで高精度な 3 次元再構成を可能にする効率的な較正フレームワーク「NLiPsCalib」と、その検証用センサー「NLiPsTac」を提案するものである。

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

この論文は、 Unreal Engine 5 を用いて生成され、136 種類の衛星モデルからなる大規模なマルチモーダルデータセット「SpaceSense-Bench」を提案し、宇宙機認識における小規模部品や未知ターゲットの認識といった課題を特定するとともに、大規模で多様なデータセットの重要性を実証したものです。

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

本論文は、マルチモーダル大規模言語モデルの細粒度視覚差異検出能力の欠如を明らかにする新たなベンチマーク「OddGridBench」を提案し、カリキュラム学習と距離認識型報酬を統合した強化学習フレームワーク「OddGrid-GRPO」によってその検出能力を大幅に向上させる手法を提示しています。

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong MingWed, 11 Ma💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

本論文は、LLM の静的な推論能力だけでなく、対戦環境における戦略的計画と迅速な意思決定のバランスを評価する新たなベンチマーク「STAR」を提案し、高度な推論モデルがリアルタイム環境では遅延により劣る一方で、高速なモデルが優位に立つという「戦略と実行のギャップ」を実証しています。

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

本論文は、分類タスクに特化した既存のテスト時適応手法の限界を克服し、ソースデータなしで画像回帰タスクの分布シフトに強靭に対応できるよう、サブ空間アライメントをブロックスペクトルマッチングに拡張した「予測スペクトル較正(PSC)」という新しいフレームワークを提案するものである。

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy HieuWed, 11 Ma💻 cs