Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

本論文は、医療用視覚言語モデルの公平性を向上させるため、パラメータ効率の高い LoRA 手法に公平性最適化を組み込んだ「MaxAccGap 損失」を提案し、緑内障診断における人種間の精度格差を大幅に縮小しながらも高い診断精度を維持する手法を確立したものである。

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

本論文は、情報理論的観点からトークン間の固有の冗長性を定量化する「情報一意性」を導入し、フレームグループ融合、トークン割り当て、空間的動的圧縮の 3 つのモジュールを備えたユニークな動画圧縮フレームワーク「UniComp」を提案し、限られた計算資源下で既存手法を上回る視覚情報の忠実度を実現することを示しています。

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

本論文は、拡散モデルのノイズ過程で位相成分を保持し振幅のみをランダム化することで、アーキテクチャの変更なしに幾何学的整合性を保つ構造整合生成を実現する「位相保存拡散(Phase-Preserving Diffusion)」を提案し、画像・動画の再レンダリングやシミュレーションから実世界への転移タスクにおいて高い性能を示すことを示しています。

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

本論文は、従来の frontal 視野の制約を克服し、19 名のドライバーから収集した約 100 万フレームの 360 度データセット「DriverGaze360」と、セマンティックセグメンテーションを補助タスクとして取り入れた「DriverGaze360-Net」を提案し、広視野環境におけるドライバーの注視予測性能を大幅に向上させたことを報告しています。

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

本論文は、人間の認知科学に基づき視覚情報を動的に取得しながら論理的な思考単位(CRU)に分解する「ViRC」フレームワークと、これに対応する CRUX データセットおよび段階的な学習戦略を提案し、マルチモーダル数学推論タスクにおいて基盤モデルを大幅に上回る性能を達成したことを示しています。

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

本論文では、解剖学的入力から線量事前分布を予測し、ビーム幾何学情報に基づいて物理的に較正された強度変調放射線治療のフラウンシーマップを直接回帰するトランスフォーマー駆動のフレームワーク「FluenceFormer」を提案し、物理情報に基づく損失関数と多様なトランスフォーマーバックボーンを用いた評価により、既存の手法を上回る高精度な計画生成を実現したことを示しています。

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

本論文は、大規模な物理法則対応動画データセット「PhyVidGen-135K」の構築と、物理的整合性を保証する新しい最適化フレームワーク「PhyGDPO」を提案し、テキストから物理的に整合性の高い動画を生成する性能を大幅に向上させたことを示しています。

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

この論文は、サッカーのハイライト映像から人間が重要とみなす瞬間を特定するタスクにおいて、最先端のマルチモーダル基盤モデルが偶然レベルに近い性能しか示さず、単一モダリティへの依存やクロスモーダルな情報の統合不足が課題であることを明らかにし、モジュール化されたアーキテクチャと補完的な学習手法の必要性を提言しています。

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Agentic Very Long Video Understanding

本論文は、スマートグラスなどのウェアラブルデバイスによる常時オン型個人 AI アシスタントの実現に向け、数日〜数週間にわたる連続的な egocentric ビデオを理解するために、エンティティ・シーングラフを中核とした計画エージェントと構造化検索・推論ツールを組み合わせた「EGAgent」を提案し、長期ビデオ理解タスクにおいて最先端の性能を達成したことを報告しています。

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

本論文は、トランスフォーマーの注意機構を動的にインスタンス化される高速重み MLP として解釈し、これをランドマーククエリによる圧縮と各ランドマークに対するトップ-k 活性化キー・バリュー対の収集を組み合わせた「MiTA(Mixture of Top-k Activations)」戦略へと拡張することで、超長系列における効率的な注意メカニズムを提案しています。

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

本論文は、物理相互作用と背景更新を分離する「解離された動的予測」の原理に基づき、既存の高密度トランスフォーマーモデルに比べ推論速度を約 9 倍向上させつつ、ナビゲーションや操作タスクなど多様な領域で成功率を高める効率的な世界モデル「DDP-WM」を提案するものである。

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

本論文は、自己強制(Self Forcing)の知見に基づき、学習時の限定的な時間範囲とテスト時の無限の時間範囲の間のギャップを、学習不要な「Rolling Sink」という手法によって解消し、5 分〜30 分という超長尺の動画生成において一貫した被写体、安定した色調、整合的な構造、滑らかな動きを実現することを提案しています。

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

本論文は、予測の不確実性と放射線専門医が定義した関心領域との注意マップの不一致を組み合わせる二重基準戦略を採用した説明可能能動学習フレームワークを提案し、医療画像解析において少量のデータで高い性能と臨床的な解釈可能性を両立させることを実証しています。

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

本論文は、アリババのEC プラットフォームで実証された、絶対 ID 認識に基づく埋め込みと比較・較正リストワイズポリシーを採用した reranker により、産業用マルチモーダル検索の精度とリアルタイム性を飛躍的に向上させた「Pailitao-VL」システムを提案するものである。

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs