Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

この論文は、拡散モデルや自己回帰モデルなど多様な生成モデルが共有する最終的なアーキテクチャ成分を悪用して実画像を「汚染」し、その特徴を学習させることで、未見の生成モデルに対しても高い汎化性能(平均精度 98.83%)を実現する AI 生成画像検出手法を提案しています。

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal Soumik2026-03-11💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

本論文は、FFA と ICGA の両方の眼科血管造影画像に対して、ハイパーネットワークに基づく適応的条件付け層(HaC)と証拠的不確実性学習に基づく信頼性予測スキーム(RaP)を導入した CLEAR-Mamba を提案し、既存手法を上回る汎用性と信頼性を実現したものである。

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin Ooi2026-03-11🤖 cs.AI

Multi-head automated segmentation by incorporating detection head into the contextual layer neural network

この論文は、スライス単位の構造検出を並列に行う検出ヘッドを統合し、その出力でセグメンテーション予測を制御するゲート付きマルチヘッド・トランスフォーマー・アーキテクチャを提案することで、解剖学的に存在しないスライスにおける偽陽性(ハルシネーション)を効果的に抑制し、放射線治療における自動セグメンテーションの信頼性と解剖学的妥当性を大幅に向上させることを示しています。

Edwin Kys, Febian Febian2026-03-11🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

本論文は、推論過程で参照bounding boxの明示を強制し、大域・局所キャプションとの整合性を報酬として活用する強化学習フレームワーク「RegionReasoner」と、それを評価するための新しいベンチマーク「RegionDial-Bench」を提案し、検出・セグメンテーションタスクにおける多段階視覚推論の精度と空間的根拠付けを大幅に向上させることを示しています。

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. Snoek2026-03-11💻 cs

Pathwise Test-Time Correction for Autoregressive Long Video Generation

この論文は、長期動画生成におけるエラー蓄積の問題を、トレーニング不要で初期フレームを基準にサンプリング経路を補正する「Test-Time Correction(TTC)」という手法により解決し、既存のテスト時間最適化法よりも安定した高品質な 30 秒動画生成を実現することを提案しています。

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

この論文は、単一画像からの法線推定における 3 次元位置の不一致問題を解決するため、法線推定を画像生成モデルを用いたシェーディングシーケンス推定として再定義し、合成データで学習した RoSE という手法を提案し、実世界ベンチマークで最先端の性能を達成したことを報告しています。

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

この論文は、経験再生、学習可能なリーキー・インテグレート・アンド・ファイア(LIF)ニューロンパラメータ、および適応型スパイクスケジューラを統合したエネルギー意識スパイク予算枠組みを提案し、フレームベースおよびイベントベースの両方のデータセットにおいて、精度向上とエネルギー効率の最適化を同時に実現するスパイクニューラルネットワークの継続学習手法を開発したものである。

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

この論文は、拡散モデルの推論遅延を軽減しつつ中間軌道の構造情報を保持するために、教師の軌道の各離散ステップに対応する複数のブランチを備えた学生モデルを提案し、密な軌道アライメントを通じて生成品質を向上させる「B-DENSE」と呼ばれる新しいフレームワークを紹介しています。

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree Singhi2026-03-11🤖 cs.AI

Temporal Consistency-Aware Text-to-Motion Generation

この論文は、異なる動作インスタンス間の時間的整合性を考慮した空間 VQ-VAE とマスク付きトランスフォーマー、および運動学的制約ブロックを導入することで、物理的に妥当で一貫性のあるテキストからモーションへの生成を実現し、HumanML3D や KIT-ML において最先端の性能を達成する TCA-T2M というフレームワークを提案しています。

Hongsong Wang, Wenjing Yan, Qiuxia Lai + 1 more2026-03-11💻 cs

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

本論文は、臨床現場で利用可能な外部ガイダンスに依存せず、生成モデル自身が欠損状態を自己認識して推論する「CoPeDiT」という新しい 3D MRI 合成フレームワークを提案し、欠損モダリティやスライスの補完において最先端の手法を上回る高忠実度かつ構造的に整合性の高い結果を実現したことを報告しています。

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

本論文は、クラス共有 LoRA と画像固有 LoRA を組み合わせ、セマンティックなボスト手法とディリクレ分布に基づく混合生成を採用することで、データ不足領域において多様性と詳細さを両立した合成データを生成し、下流タスクの分類精度を向上させる「ChimeraLoRA」を提案するものである。

Hoyoung Kim, Minwoo Jang, Jabin Koo, Sangdoo Yun, Jungseul Ok2026-03-11💻 cs

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

本論文は、sparse 教師ありセグメンテーション、知識に基づく制約推論、多基準意思決定分析という 3 つの手法を統合したニューロ記号フレームワーク「OrthoAI」を提案し、マウスピース矯正における 3D 歯のセグメンテーションと生体力学的妥当性の推論を自動化するものである。

Edouard Lansiaux, Margaux Leman, Mehdi Ammi2026-03-11🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

この論文は、Grounding DINO 1.5 と YOLOv11 を検出器として、Segment Anything Model 2.1(SAM 2.1)を共有バックボーンに用いた二重パイプライン手法を提案し、鳥の画像セグメンテーションにおいてゼロショットおよび教師あり学習の両方で従来の手法を上回る性能を達成したことを報告しています。

Abhinav Munagala2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

本論文は、文書偽造検出のゼロショットベンチマーク「DOCFORGE-BENCH」を提案し、既存手法が事前学習済み重みのままでは閾値の較正失敗により実用できないことを示し、再学習ではなく閾値の適応が実運用におけるボトルネックの解決鍵であることを明らかにしています。

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

この論文は、トレーニング時に特権的な 4 次元情報(3D 点の軌跡予測)を活用して VLA モデルに物理的な世界動態の理解を付与する「Pri4R」を提案し、推論時のオーバーヘッドなしにロボット操作タスクの性能を大幅に向上させることを示しています。

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

この論文は、CLIP ベースの視覚エンコーダが抱える細粒度理解の課題と DINOv3 が持つ粗粒度抽象化の欠点を補うため、テキスト入力に応じて視覚抽象化レベルを動的に調整する「Granulon」という新しいマルチモーダル大規模言語モデルを提案し、単一のフォワードパスでピクセルから粗粒度までを統合的に推論可能にすることで、精度の向上とハルシネーションの削減を実現したことを示しています。

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

この論文は、3D ガウススプラッティングの品質を損なわずにロバストな透かし埋め込みを実現し、どのガウスプリミティブに情報を埋め込み、なぜそれが選択されたかを説明可能な「Trio-Experts」モジュールと「SBAG」ゲートを用いた新しいフレームワークを提案するものです。

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan Li2026-03-11💻 cs