Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation

本論文は、合成データを用いた教師あり前学習において、匿名化された実データからの形状バンクと解剖学的な配置戦略を導入することで、医療画像セグメンテーションの精度とスケーラビリティを大幅に向上させる新しいフレームワークを提案しています。

Jiaqi Tang, Mengyan Zheng, Shu Zhang + 2 more2026-03-03💻 cs

Event-Anchored Frame Selection for Effective Long-Video Understanding

本論文は、自己教師あり DINO 埋め込みを用いて動画を意味的なイベント単位に分割し、各イベントからクエリ関連性の高いフレームを「アンカー」として選択・最適化する「イベントアンカーフレーム選択(EFS)」手法を提案し、これにより既存の大型視覚言語モデルを学習不要でプラグイン可能にすることで、長動画理解の性能を大幅に向上させることを示しています。

Wang Chen, Yongdong Luo, Yuhui Zeng + 5 more2026-03-03💻 cs

The Texture-Shape Dilemma: Boundary-Safe Synthetic Generation for 3D Medical Transformers

本論文は、医療画像のテクスチャと形状の学習を両立させるため、境界領域を保護しつつ物理モデルに基づくテクスチャを生成する新しい合成フレームワークを提案し、これにより実データを用いない教師あり学習で最先端の性能を達成することを示しています。

Jiaqi Tang, Weixuan Xu, Shu Zhang + 2 more2026-03-03💻 cs

GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis

本論文は、拡散モデルの事前学習済み確率密度から導出された測地線補間を用いてフロー経路を制約する「確率密度測地線フローマッチング(PDG-FM)」を提案し、拡散ベースの手法よりも視点間の一貫性と幾何学的整合性を向上させた新規視点合成フレームワークを確立しています。

Xuqin Wang, Tao Wu, Yanfeng Zhang + 5 more2026-03-03💻 cs

Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

この論文は、Implicit Neural Representations(INRs)の周波数バイアス問題を解決するため、フーリエ特徴とチェビシェフ特徴を組み合わせ、タスクに応じた周波数基底を効率的に合成・選択する「Content-Aware Frequency Encoding(CAFE)」およびその拡張版「CAFE+」を提案し、既存手法を上回る性能を実証したものです。

Junbo Ke, Yangyang Xu, You-Wei Wen + 1 more2026-03-03🤖 cs.AI

Vision-Language Feature Alignment for Road Anomaly Segmentation

既存のアプローチが抱える誤検知や見落としの問題を解決するため、事前学習済みビジョン・言語モデルのセマンティックな事前知識を活用し、視覚特徴と言語特徴を整合させることで道路の異常検知精度を大幅に向上させる新しいフレームワーク「VL-Anomaly」を提案する論文です。

Zhuolin He, Jiacheng Tang, Jian Pu + 1 more2026-03-03💻 cs

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

本論文は、直感的な推論と外部視覚ツールの適応的な呼び出しを組み合わせる「TAR-FAS」フレームワークを提案し、多様なツール利用推論データセットと学習手法を通じて、顔生体認証におけるスプーフィング検出の汎化性能と信頼性を大幅に向上させることを示しています。

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

本論文は、検索集約的なマルチモーダル QA データの不足、効果的な検索軌跡の欠如、オンライン検索 API の高コストという 3 つの課題に対処するため、ハイパーグラフに基づくデータ生成法「Hyper-Search」、ツール特化型エキスパートを木探索で再構成する「DR-TTS」、およびオフライン検索エンジンを組み合わせた「MM-DeepResearch」を提案し、複雑な深層検索タスクにおいて優れた性能を実証したものである。

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures

本論文は、強化学習における報酬の曖昧さを解消し、失敗の根本原因を特定する構造化された診断フィードバックを導入することで、自律運転における Vision-Language-Action モデルの性能を飛躍的に向上させ、NAVSIM ベンチマークで最先端の成果を達成する「ELF-VLA」というフレームワークを提案しています。

Yuechen Luo, Qimao Chen, Fang Li + 5 more2026-03-03💻 cs

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

本論文は、UAV の音響検出と追跡向けに、層ごとの感度に基づく量子化と構造化プルーニングを活用し、並列処理に依存せず低消費電力かつ高精度な推論を可能にする逐次 8 ビットハードウェアアクセラレータ「SHIELD8-UAV」を提案するものである。

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

この論文は、グラフィックデザインの美的評価を包括的に行うための新たなベンチマーク「AesEval-Bench」と学習データセットを提案し、既存の視覚言語モデル(VLM)の性能限界を明らかにするとともに、人間のガイドによる大規模なラベル付けと推論に基づく微調整を通じて、この分野における最初の体系的な評価枠組みを確立したものである。

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Unified Vision-Language Modeling via Concept Space Alignment

本論文は、既存のテキスト埋め込み空間 SONAR を拡張して視覚・言語情報を統合する V-SONAR を提案し、これを用いて大規模概念モデル(LCM)を視覚言語タスクに拡張した V-LCM を開発することで、多言語・多モーダルな理解能力を大幅に向上させ、多数の言語で最先端のモデルを上回る性能を達成したことを示しています。

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk2026-03-03💬 cs.CL