ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

本論文は、大規模視覚言語モデルにおける関係性の幻覚を軽減するため、画像とテキストの記憶を蓄積し、主語・目的語・関係性に焦点を当てた多視点の質問を逐次的に提示するトレーニング不要な手法「ChainMPQ」を提案し、その有効性を複数のベンチマークで実証したものである。

Yike Wu, Yiwei Wang, Yujun Cai2026-03-03🤖 cs.AI

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

本論文は、心エコー検査のプローブ誘導における個人差への対応を強化するため、超音波基盤モデルに個体固有の3D構造理解能力をオンラインで付与する「VA-Adapter」を提案し、131 万を超えるサンプルを用いた大規模実験で既存モデルを凌駕する性能を低パラメータで実現したことを示しています。

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

本論文は、推論時にスパティオテンプラルなレイアウトとテキスト・画像の整合性を保つために、学習不要の「テスト時最適化と記憶(TTOM)」フレームワークを提案し、パラメトリックな記憶メカニズムを用いて動画生成のコンポジション能力を飛躍的に向上させることを示しています。

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

本論文は、線形アテンションの計算効率と生成モデルの画質を両立させるため、学習不安定性を解消する「ESGF」戦略、知覚と歪みのトレードオフを克服する「SNR 基盤の MoE」アーキテクチャ、そして軽量な「TAG」ガイダンスを組み合わせた画期的な超解像フレームワーク「LinearSR」を提案し、安定かつ効率的なフォトリアリスティックな画像超解像を実現したことを示しています。

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: 1\ell_1-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

本論文は、階層性と構成性を同時に表現する新たな視覚言語モデル「PHyCLIP」を提案し、双曲空間の直積に1\ell_1距離を導入することで、概念間の階層関係と異種概念の組み合わせを効率的に学習し、既存手法を上回る性能と解釈可能性を実現したことを示しています。

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

本論文は、不完全なマルチラベル画像認識の課題に対処するため、意味情報とラベル相関を捉える特徴学習と、視覚・意味空間の整合性に基づく特徴強化、そして欠損ラベルの復元を相互に促進させる協調学習フレームワーク「CSL」を提案し、複数のデータセットで最先端の性能を達成したことを示しています。

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

この論文は、自己教師あり事前学習を用いた新しい 2 段階トレーニングフレームワークを導入し、事前学習された VAE に依存することなくピクセル空間で直接学習する生成モデルを実現し、ImageNet において既存の潜在空間モデルや VAE ベースの手法を凌駕する SOTA 性能と計算効率を達成したことを報告しています。

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

本論文は、ハエの嗅覚回路に着想を得た Fly-CL というフレームワークを提案し、事前学習済みモデルを用いた継続的表現学習において、多共線性の解消とトレーニング時間の大幅な短縮を実現しながら最先端の性能を達成することを示しています。

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

LightMem: Lightweight and Efficient Memory-Augmented Generation

Atkinson-Shiffrin の人間の記憶モデルに着想を得た LightMem は、感覚記憶・短期記憶・長期記憶の 3 段階構造とオフライン更新を導入することで、LLM の対話履歴活用における性能を向上させつつ、トークン数や API 呼び出しを大幅に削減する軽量かつ効率的なメモリシステムを実現します。

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

VoMP: Predicting Volumetric Mechanical Property Fields

VoMP は、3D オブジェクトの体積全体にわたってヤング率、ポアソン比、密度などの機械的特性を予測する新しいフードフォワード手法であり、物理的に妥当な材料多様体上で学習されたジオメトリ・トランスフォーマーと、視覚言語モデルを活用した新しいアノテーションパイプラインにより、従来手法を大幅に上回る精度と速度を実現します。

Rishit Dagli, Donglai Xiang, Vismay Modi + 7 more2026-03-03🤖 cs.LG

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

この論文は、人間の多感覚統合の概念に着想を得て、2D と 3D の自己教師あり学習を組み合わせる「Concerto」を提案し、これにより単独のモデルや既存の手法を凌駕する優れた空間表現を学習し、3D シーン理解やオープンワールド知覚において最先端の結果を達成したことを示しています。

Yujia Zhang, Xiaoyang Wu, Yixing Lao + 4 more2026-03-03💻 cs

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

本論文は、視覚トークンの空間的冗長性と機能的異質性という課題に対処するため、条件付きルーティングとプロトタイプに基づくセマンティックなルーティングを組み合わせた明示的ガイダンスを備えた二段階ルーター「ProMoE」を提案し、ImageNet における最先端の拡散トランスフォーマーモデルの性能を向上させることを示しています。

Yujie Wei, Shiwei Zhang, Hangjie Yuan + 8 more2026-03-03💻 cs

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

この論文は、音声のみから統計的な顔の事前知識や領域強化モジュール、およびトランスフォーマーベースの離散コードブックを活用して、高解像度かつ高品質な話者動画を生成する新規手法を提案し、既存の手法を上回る性能を実証したものです。

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess