Vision-Language Feature Alignment for Road Anomaly Segmentation

既存のアプローチが抱える誤検知や見落としの問題を解決するため、事前学習済みビジョン・言語モデルのセマンティックな事前知識を活用し、視覚特徴と言語特徴を整合させることで道路の異常検知精度を大幅に向上させる新しいフレームワーク「VL-Anomaly」を提案する論文です。

Zhuolin He, Jiacheng Tang, Jian Pu + 1 more2026-03-03💻 cs

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

本論文は、直感的な推論と外部視覚ツールの適応的な呼び出しを組み合わせる「TAR-FAS」フレームワークを提案し、多様なツール利用推論データセットと学習手法を通じて、顔生体認証におけるスプーフィング検出の汎化性能と信頼性を大幅に向上させることを示しています。

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

本論文は、検索集約的なマルチモーダル QA データの不足、効果的な検索軌跡の欠如、オンライン検索 API の高コストという 3 つの課題に対処するため、ハイパーグラフに基づくデータ生成法「Hyper-Search」、ツール特化型エキスパートを木探索で再構成する「DR-TTS」、およびオフライン検索エンジンを組み合わせた「MM-DeepResearch」を提案し、複雑な深層検索タスクにおいて優れた性能を実証したものである。

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures

本論文は、強化学習における報酬の曖昧さを解消し、失敗の根本原因を特定する構造化された診断フィードバックを導入することで、自律運転における Vision-Language-Action モデルの性能を飛躍的に向上させ、NAVSIM ベンチマークで最先端の成果を達成する「ELF-VLA」というフレームワークを提案しています。

Yuechen Luo, Qimao Chen, Fang Li + 5 more2026-03-03💻 cs

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

本論文は、UAV の音響検出と追跡向けに、層ごとの感度に基づく量子化と構造化プルーニングを活用し、並列処理に依存せず低消費電力かつ高精度な推論を可能にする逐次 8 ビットハードウェアアクセラレータ「SHIELD8-UAV」を提案するものである。

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

この論文は、グラフィックデザインの美的評価を包括的に行うための新たなベンチマーク「AesEval-Bench」と学習データセットを提案し、既存の視覚言語モデル(VLM)の性能限界を明らかにするとともに、人間のガイドによる大規模なラベル付けと推論に基づく微調整を通じて、この分野における最初の体系的な評価枠組みを確立したものである。

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Unified Vision-Language Modeling via Concept Space Alignment

本論文は、既存のテキスト埋め込み空間 SONAR を拡張して視覚・言語情報を統合する V-SONAR を提案し、これを用いて大規模概念モデル(LCM)を視覚言語タスクに拡張した V-LCM を開発することで、多言語・多モーダルな理解能力を大幅に向上させ、多数の言語で最先端のモデルを上回る性能を達成したことを示しています。

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk2026-03-03💬 cs.CL

Differential privacy representation geometry for medical image analysis

この論文は、医療画像分析における差分プライバシーの影響を、表現空間の構造的変換として解釈し、エンコーダの幾何学的変化とタスクヘッドの利用率の低下に分解して分析する新たなフレームワーク「DP-RGMI」を提案し、胸郭 X 線画像の大規模データを用いた検証を通じて、プライバシー保護が表現の等方性を均一に縮退させるのではなく、初期化やデータセットに依存した非単調な変化を引き起こすことを明らかにしています。

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting

本論文は、限られた手描きサンプル(470 例)から油絵の筆触を生成するデータ効率の高い拡散モデル「StrokeDiff」を提案し、平滑化正則化(SmR)による学習安定化とベジェ曲線に基づく制御性の実現を通じて、表現豊かで構造化されたマルチメディアコンテンツ作成を可能にすることを示しています。

Dantong Qin, Alessandro Bozzon, Xian Yang + 3 more2026-03-03💻 cs

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

本論文は、スマートグラス上で動作する Web ネイティブの神経記号フレームワーク「Egocentric Co-Pilot」を提案し、大規模言語モデルと視覚・音声入力を統合して長期的な推論や意思決定を支援することで、視覚障害者や認知負荷の高い人々を含むユーザーの日常生活におけるアクセシビリティとタスク遂行能力を向上させることを実証しています。

Sicheng Yang, Yukai Huang, Weitong Cai + 8 more2026-03-03🤖 cs.AI

GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation

本論文は、医療画像セグメンテーションにおいて事前学習済みビジョンモデルを完全微調整せずに活用するため、DINOv3 の特徴を軽量なトークンプロトタイプ集約メカニズムで空間的ガイドマスクに変換し、既存のセグメンテーションアーキテクチャに事前知識を注入する「GuiDINO」というフレームワークを提案するものである。

Zhuonan Liang, Wei Guo, Jie Gan + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

本論文は、医療用視覚言語モデルの事実的幻覚を軽減し、局所的な病理学的証拠に基づいた推論を強化するため、視覚領域に根ざした推論プロセスを構築する自動データ生成パイプラインとスコアベースの最適化戦略を備えた「ClinCoT」という臨床意識型視覚連鎖推論フレームワークを提案し、複数の医療ベンチマークで既存手法を上回る性能を実証しています。

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

本論文は、複雑な構成的視覚関係(CVR)タスクを解決するため、正常な事例間の類似性を最大化し異常との差異を最小化する拡張異常コントラスト学習と、予測・検証のパラダイムを組み合わせた「PR-A²CL」を提案し、複数のデータセットで最先端の性能を達成したことを示しています。

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

この論文は、Vision Transformer 枠組み内で環境バイアス調整、直交性制約による内容とノイズの厳密な分離、そして Google の Nano Banana Pro を用いた因果的プリアの導入を通じて、画像ノイズ除去における因果的干渉と正交な内容・ノイズの解離を実現し、高い忠実度とリアルタイム処理性能を達成する「TCD-Net」を提案するものである。

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

ArtLLM: Generating Articulated Assets via 3D LLM

本論文は、大規模な可動性データセットで学習された 3D 多モーダル大規模言語モデル「ArtLLM」を提案し、3D メッシュから可動アセットの部品配置と関節構造を推論して高品質な幾何形状を生成する新たなフレームワークを確立し、既存手法の限界を克服してロボティクスやシミュレーション向けにスケーラブルなデジタルツイン構築を実現することを示しています。

Penghao Wang, Siyuan Xie, Hongyu Yan + 4 more2026-03-03💻 cs