Slot-BERT: Self-supervised Object Discovery in Surgical Video

本論文は、手術動画における長期的な時間的整合性を保ちつつ、計算コストを抑えて物体中心の表現を学習し、ゼロショットドメイン適応も可能にする自己教師あり物体発見モデル「Slot-BERT」を提案し、実世界の手術データセットにおいて最先端の手法を上回る性能を実証したものである。

Guiqiu Liao, Matjaz Jogan, Marcel Hussing + 5 more2026-03-04⚡ eess

Weight Space Representation Learning on Diverse NeRF Architectures

本論文は、MLP、トリプレーン、ハッシュテーブルなど多様なアーキテクチャを持つ NeRF を、事前学習されたグラフメタネットワークと対照的学習を用いてアーキテクチャに依存しない潜在空間へ変換し、分類や検索、言語タスクにおいて既知・未知のアーキテクチャにわたって頑健な推論を可能にする初のフレームワークを提案するものである。

Francesco Ballerini, Pierluigi Zama Ramirez, Luigi Di Stefano + 1 more2026-03-04💻 cs

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

本論文は、サイクル整合性を損失関数として用いた自己教師ありマルチグラフマッチング手法を提案し、教師データなしで線虫(C. elegans)の 3D 顕微鏡画像における細胞核のセマンティック注釈を可能にする初のアトラスを構築し、最先端の教師あり手法と同等の精度を達成したことを報告しています。

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

GAN-Based Single-Stage Defense for Traffic Sign Classification Under Adversarial Patch

本論文は、自動運転車の交通標識認識システムに対する敵対的パッチ攻撃に対し、事前知識や多段階処理を必要とせず、モデル非依存かつリアルタイム処理に適した生成敵対ネットワーク(GAN)ベースの単一段階防御手法を提案し、攻撃下での分類精度を大幅に向上させることを示しています。

Abyad Enan, Mashrur Chowdhury2026-03-04💻 cs

Language-guided Open-world Video Anomaly Detection under Weak Supervision

この論文は、自然言語による指示で異常の定義を動的に変更可能な新しいオープンワールド型動画異常検出パラダイムを提案し、その学習に必要な大規模な事前学習用データセット「PreVAD」と、弱教師あり学習と対照学習を組み合わせたモデル「LaGoVAD」を開発して、ゼロショット設定で最先端の性能を達成したことを示しています。

Zihao Liu, Xiaoyu Wu, Jianqin Wu + 2 more2026-03-04💻 cs

Scale-wise Distillation of Diffusion Models

本論文は、拡散モデルの効率的な生成を実現するため、中間ステップの冗長計算を回避する「スケーリング・ワイス・ディストーション(SwD)」フレームワークと、分布一致を促進する新しいパッチレベルの MMD 目的関数を提案し、既存手法を大幅に上回る生成速度と品質を達成したことを報告しています。

Nikita Starodubcev, Ilya Drobyshevskiy, Denis Kuznedelev + 2 more2026-03-04💻 cs

Differentially Private 2D Human Pose Estimation

本論文は、投影法と特徴量選択を組み合わせたハイブリッドな差分プライバシーフレームワークを提案し、MPII データセット上で非公開モデルに迫る精度(ε=0.8 で PCKh@0.5 が 82.61%)を維持しつつ、2 次元人体ポーズ推定におけるプライバシー保護を実現した世界初の包括的な研究である。

Kaushik Bhargav Sivangi, Paul Henderson, Fani Deligianni2026-03-04💻 cs

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

本論文は、STEM 分野に偏重した既存の評価基準では見落とされがちな人文社会科学(HSS)領域の多言語・学際的推論能力を評価するため、専門家と自動エージェントが協働して生成した 1 万 3000 件以上のデータセット「HSSBench」を提案し、最先端のマルチモーダル大規模言語モデルが依然としてこの分野において大きな課題に直面していることを示しています。

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

本論文は、大規模な動画モデルの微調整を必要とせず、キーフレームやスタイル画像などのフレームレベル信号を用いて高品質な制御動画生成を実現する「Frame Guidance」というトレーニング不要の手法を提案し、メモリ効率と一貫性を向上させる新しい潜在空間処理法を開発したことを示しています。

Sangwon Jang, Taekyung Ki, Jaehyeong Jo + 4 more2026-03-04🤖 cs.AI

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

本論文は、既存の強化学習手法が多モーダル知覚能力の向上に不十分であることを指摘し、視覚注釈の整合性を報酬として与える「Perception-R1」を提案することで、少量のデータで多モーダル推論能力を大幅に向上させる新たなアプローチを提示しています。

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

この論文は、拡散モデルの推論速度を向上させるために、ネットワークパラメータや参照画像の変更を必要とせず、遺伝的アルゴリズムを用いてモデル固有の効率的なキャッシュスケジュールを学習する「ECAD」という手法を提案し、既存の手法を上回る高速化と画質の両立を実現したことを報告しています。

Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam2026-03-04💻 cs

SceneStreamer: Continuous Scenario Generation as Next Token Group Prediction

自律運転システムの訓練・評価に不可欠なリアルタイムかつインタラクティブな交通シミュレーションを実現するため、トランスフォーマーモデルを用いてシーンをトークン列として連続的に生成する新しいフレームワーク「SceneStreamer」を提案し、その高忠実度と汎用性を検証した論文です。

Zhenghao Peng, Yuxin Liu, Bolei Zhou2026-03-04💻 cs

Navigating with Annealing Guidance Scale in Diffusion Space

本論文は、拡散モデルのサンプリング過程において、条件付きノイズ信号に基づいてガイダンススケールを動的に調整する「アニーリングガイダンススケジューラ」を提案し、追加の計算コストやメモリ消費なしに画像の品質とテキストとの整合性を大幅に向上させる手法を報告しています。

Shai Yehezkel, Omer Dahary, Andrey Voynov + 1 more2026-03-04🤖 cs.AI