What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging

本論文は、視覚言語モデルが抱える肯定バイアスという課題に対処するため、否定文を構造的に生成する新規データセット「CoVAND」と、否定の文脈を維持するトークン結合モジュール「NegToMe」を提案し、物体検出タスクにおける否定理解の精度を大幅に向上させる手法を提示しています。

Inha Kang, Youngsun Lim, Seonho Lee, Jiho Choi, Junsuk Choe, Hyunjung Shim2026-03-24🤖 cs.AI

GAS: Improving Discretization of Diffusion ODEs via Generalized Adversarial Solver

この論文は、追加の複雑な学習テクニックを必要とせず、敵対的学習と組み合わせることで、拡散モデルの ODE サンプリングの計算コストを削減しつつ、高品質で詳細な画像生成を実現する「Generalized Adversarial Solver(GAS)」を提案するものです。

Aleksandr Oganov, Ilya Bykov, Eva Neudachina, Mishan Aliev, Alexander Tolmachev, Alexander Sidorov, Aleksandr Zuev, Andrey Okhotin, Denis Rakitin, Aibek Alanov2026-03-24🤖 cs.LG

Buffer layers for Test-Time Adaptation

本論文は、テスト時適応(TTA)において既存の正規化層ベースのアプローチが抱えるバッチサイズへの依存性や構造的制約を克服し、事前学習モデルの整合性を保ちながらカタストロフィック・フォージングを回避する「バッファ層」という新たなパラダイムを提案し、その有効性と汎用性を示したものである。

Hyeongyu Kim, Geonhui Han, Dosik Hwang2026-03-24🤖 cs.LG

PixelVLA: Advancing Pixel-level Understanding in Vision-Language-Action Model

本論文は、ピクセルレベルの推論とマルチモーダルなプロンプト対応を可能にする新しい視覚運動指示微調整フレームワークと大規模データセット「Pixel-160K」を提案し、既存の VLA モデルを大幅に上回る操作成功率と低コストな学習を実現する「PixelVLA」を開発したことを報告しています。

Wenqi Liang, Gan Sun, Yao He, Jiahua Dong, Suyan Dai, Ivan Laptev, Salman Khan, Yang Cong2026-03-24💻 cs

Sharing the Learned Knowledge-base to Estimate Convolutional Filter Parameters for Continual Image Restoration

この論文は、既存のバックボーン構造を変更せずに畳み込み層を簡易に修正し、過去の画像復元タスクから得た知識を共有することで、計算コストや推論時間を大幅に増やすことなく、新しい復元タスクへの適応と既存タスクの性能維持を両立させる継続的学習手法を提案しています。

Aupendu Kar, Krishnendu Ghosh, Prabir Kumar Biswas2026-03-24💻 cs

Expand Your SCOPE: Semantic Cognition over Potential-Based Exploration for Embodied Visual Navigation

本論文は、視覚的フロンティア情報を活用して潜在ベースの探索を駆動し、自己再考メカニズムを通じて意思決定の信頼性を高めるゼロショットフレームワーク「SCOPE」を提案し、実体視覚ナビゲーションタスクにおいて最先端の手法を上回る精度を達成したことを報告しています。

Ningnan Wang, Weihuang Chen, Liming Chen, Haoxuan Ji, Zhongyu Guo, Xuchong Zhang, Hongbin Sun2026-03-24💻 cs

StyleQoRA: Quality-Aware Low-Rank Adaptation for Few-Shot Multi-Style Editing

本論文は、画像品質メトリクスを用いて各層の最適なランクを自動決定し、スタイル固有と共有のハイブリッドルータリングを備えた混合専門家(MoE)LoRA 構造を導入することで、限られたペアデータから高品質な多様スタイル編集を可能にする「StyleQoRA」という新しいフレームワークを提案するものです。

Cong Cao, Huanjing Yue, Yujie Xu, Xiaodong Xu2026-03-24💻 cs