AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

本論文は、大規模視覚言語モデルにおける視覚トークン剪定手法の分析を通じて、アテンションと多様性の特性を解明し、画像の複雑さに応じて適応的に調整する「AgilePruner」を提案することで、性能と幻覚抑制の両立を実現したものです。

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

本論文は、自律走行における軌道予測の課題を解決するため、周波数領域と時間領域を統合し、長距離依存関係とマルチモーダル不確実性を線形時間計算量で効率的にモデル化する新しいフレームワーク「FoSS」を提案し、Argoverse ベンチマークにおいて最先端の精度を達成しながら計算コストとパラメータ数を大幅に削減することを示しています。

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

本論文は、従来のマルチタスク学習が抱えるタスク間の干渉や硬直的な調整の課題を解決するため、セグメンテーションと分類タスク間の双方向通信を多レベルで実現し、不確実性に基づいて適応的にタスクバランスを制御する新しい乳腺超音波画像解析フレームワークを提案し、複数の公開データセットで高い性能を実証しています。

Abdullah Al Shafi, Md Kawsar Mahmud Khan Zunayed, Safin Ahmmed + 2 more2026-03-03🤖 cs.AI

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

この論文は、医療用 VLM における強化学習(RL)の効果を、視覚能力、教師あり微調整(SFT)、RL の各要素に分解して分析し、RL が SFT によって獲得された一定の正解候補の存在下で出力分布を鋭くし精度を向上させることを明らかにするとともに、その知見に基づいた効率的な学習レシピを提案し、複数の医療 VQA ベンチマークで高い性能を達成したことを示しています。

Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh + 4 more2026-03-03💻 cs

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

本論文は、抽象的な異常概念を明確な視覚的実体に変換し、高レベルのセマンティクスとピクセルレベルの空間特徴を精密に整合させるために、3 つの学習可能なアンカートークンと新たな大規模指令データセットを導入することで、ゼロショット視覚異常セグメンテーションにおいて最先端の性能を達成する AG-VAS フレームワークを提案しています。

Zhen Qu, Xian Tao, Xiaoyi Bao + 4 more2026-03-03🤖 cs.AI

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

この論文は、災害後の視覚的状況理解において、大規模事前学習に基づくオープンボキャブラリーモデルと従来の教師あり学習を比較評価し、ラベル空間が固定され注釈データが利用可能な場合には、特に小物体や複雑な背景における境界の精密な特定において教師あり学習が依然として最も信頼性の高い手法であることを明らかにしています。

Anna Michailidou, Georgios Angelidis, Vasileios Argyriou + 2 more2026-03-03💻 cs

Perspective-Equivariant Fine-tuning for Multispectral Demosaicing without Ground Truth

本論文は、アライメントなしのマルチスペクトル画像から高解像度の分光画像を復元する新しいフレームワーク「PEFD」を提案し、カメラの投影幾何学を利用した空空間情報の回復と事前学習済み基盤モデルの効率的な微調整により、教師なしで既存手法を凌駕し、教師あり学習に迫る性能を達成することを示しています。

Andrew Wang, Mike Davies2026-03-03💻 cs

MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention

本論文は、CNN、Transformer、Mamba の各利点を統合した「TransMixer」や方向誘導エッジゲート畳み込みなどの新機構を導入し、複雑なひび割れパターンを高精度かつ極めて軽量(2.05 GFLOPs、2.54M パラメータ)に検出する新しいセグメンテーションアーキテクチャ「MixerCSeg」を提案するものです。

Zilong Zhao, Zhengming Ding, Pei Niu + 2 more2026-03-03🤖 cs.AI

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

本論文は、局所的および大域的な文脈を最適輸送を用いて効率的に集約し、トレーニング不要で冗長な視覚トークンを削減しながら動画の時間的・視覚的忠実度を維持する新たな手法「AOT」を提案し、動画大規模言語モデルの効率性と性能を両立させています。

Jinlong Li, Liyuan Jiang, Haonan Zhang + 1 more2026-03-03💻 cs

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

本論文は、音声と動画の潜在トークン間の微細な時間的対応関係を共有自己注意機構を通じて明示的にモデル化するマルチモーダル・トランスフォーマー・ブロックを中核に据え、事前学習済み動画生成モデルの強力な事前知識を活用して高忠実度かつリップシンク精度の高い話者肖像を生成し、さらに短い音声リファレンスから目標スタイルの声をクローンする機能も備えた、オープンソースの最先端アプローチを超えるユニファイド・エンドツーエンド拡散フレームワーク「UniTalking」を提案するものである。

Hebeizi Li, Zihao Liang, Benyuan Sun + 4 more2026-03-03💻 cs

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

この論文は、連続する動画ストリームにおけるリアルタイムな音声・映像インスタンスセグメンテーションを実現するため、因果的クロスアテンション融合モジュールと音声ガイド対照学習戦略を採用した初のオンラインフレームワーク「SeaVIS」を提案し、既存のオフライン手法や外観のみに基づく従来手法の限界を克服して AVISeg データセットで最先端の性能を達成したことを報告しています。

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Unifying Language-Action Understanding and Generation for Autonomous Driving

本論文は、言語と動作トークンを共有離散コードブックに統合し、動作理解タスクを補助的に導入するとともに、効率的な粗密二段階生成手法 C2F を採用することで、言語と動作の整合性を高め推論時間を大幅に削減する、自律運転のための新しい VLA モデル「LinkVLA」を提案しています。

Xinyang Wang, Qian Liu, Wenjie Ding + 7 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

本論文は、MRI 復元タスクにおける物理的制約や劣化構造に応じて、グローバルなトークン混合の有用性が加速再構成や超解像では限定的である一方、空間的に不均一なノイズを含むデノイジングでは顕著に有効であることを示し、その適用はタスク依存であることを明らかにしている。

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

本論文は、事前学習された CLIP モデルのパラメータを変更せずに、グローバルな不整合と局所的な偽造の手がかりをそれぞれ検出する 2 つのストリームを統合し、進化し続けるディープフェイク脅威に対して高い汎化性能を示す「Deepfake Forensics Adapter(DFA)」という新しい双ストリーム検出フレームワークを提案するものである。

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

本論文は、既存の画像中心の手法では防御できないビデオ大規模言語モデル(Video-LLM)の脆弱性を突く初の汎用エネルギー遅延攻撃フレームワーク「VidDoS」を提案し、マスク付き教師強制などの手法を用いて推論遅延を 15 倍以上、トークン数を 205 倍以上に増大させ、自動運転などの安全クリティカルなシナリオにおいて重大な安全違反を引き起こすことを実証している。

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI