It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

本論文は、現実世界の多様な環境におけるアナログ時計の読み取りが現在の視覚言語モデルにとって依然として課題であることを指摘し、実世界データセット「TickTockVQA」と最適化手法「Swap-DPO」を提案することで、モデルの時計読み取り精度と空間的推論能力を大幅に向上させることを示しています。

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee2026-03-10💻 cs

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

この論文は、赤外線画像が欠落している状況でも可視光画像から高品質な融合画像を生成するために、共有辞書に基づく係数領域での推論と大規模言語モデルを活用した意味的事前知識を組み合わせた新しいフレームワーク「Missing No More」を提案し、その有効性を検証したものである。

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu2026-03-10💻 cs

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

本論文は、3D 物体形状とテキスト指示の間のモダリティギャップを克服し、物理的に安定かつ意味的に整合性の高い把持姿勢を生成するために、拡散モデルと細粒度な構造化言語ラベルを活用した新しいフレームワーク「AffordGrasp」を提案し、既存手法を大幅に上回る性能を実証したものである。

Xiaofei Wu, Yi Zhang, Yumeng Liu, Yuexin Ma, Yujiao Shi, Xuming He2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

本論文は、音楽のビートに基づくガウス表現を導入し、Transformer の代わりに長系列処理に優れた Mamba を拡散モデルに組み込むことで、短尺から長尺まで音楽と同期した高品質なダンス生成を実現する「MambaDance」を提案しています。

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

この論文は、複雑な人間動作の動画生成における課題を解決するため、自然言語から骨格シーケンスを生成する自己回帰モデルと、その骨格を基に高品質な動画を合成するポーズ条件付き拡散モデルからなる二段階のフレームワークを提案し、さらに複雑な動作に特化した合成データセットを構築したことを報告しています。

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

本論文は、偽ラベルの品質を条件付教師信号として活用し、低品質なアーティファクトの模倣を防ぎつつ高品質な復元を可能にする「QualiTeacher」という新しいフレームワークを提案し、実世界画像復元における不完全な教師あり学習のパラダイムを革新するものである。

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

本論文は、部分的な遮蔽や欠損モダリティ、クラス不均衡といった実環境の課題に対処するため、安全なクロスアテンション機構とモダリティドロップアウトを備えた双枝トランスフォーマーアーキテクチャを採用し、Aff-Wild2 検証セットで 60.79% の精度と 0.5029 の F1 スコアを達成した、10 回 ABAW 表情認識チャレンジに対する強健なマルチモーダルフレームワークを提案しています。

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

従来の密なアテンションに依存する 3D 再構築モデルが抱える計算コストの課題を解決するため、Structure-from-Motion の原理に着想を得て、最も情報量の多い画像トークンのみを選択的に処理する双枝アテンション機構を採用することで、1000 視点シーケンスにおいて 12.4 倍の推論速度向上を実現しつつ、幾何学的精度とのバランスを保った Speed3R を提案する論文です。

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

本論文は、ロボットの技能プログラミングにおいて、高次元の視覚情報に基づいて条件分岐を自動選択し、分布外コンテキストを検出する「See & Switch」というインタラクティブな教示・実行フレームワークを提案し、実ロボット実験およびユーザー研究を通じてその有効性を検証したものである。

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

本論文は、大規模視覚言語モデル(LVLM)を活用してドローン画像と衛星画像の視覚的・意味的相関を明示的に学習する新規ランキングアーキテクチャと、近接する正例への過度な罰則を回避する関係性認識損失関数を提案し、既存の手法を大幅に上回るクロスビュー UAV 地理定位の精度向上を実現するものである。

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

本論文は、既存のハッシュベース手法が抱える情報損失やカテゴリ爆発の問題を克服するため、セマンティックなプロトタイプ更新と安定したテスト時エンコーダ更新、およびマージン意識型ログit較正を導入し、オンラインストリームから未知のカテゴリを動的に発見・学習する適応フレームワーク「TALON」を提案するものです。

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

この論文は、未知環境でのオブジェクト目標ナビゲーションにおいて、LLM を用いた意味領域推論とハイブリッド地図を統合し、能動的な探索戦略を採用することで、従来の反応型アプローチやフロンティア探索よりも大幅に高い成功率と経路効率を達成する手法を提案しています。

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

本論文は、主語駆動型テキストから画像生成モデルの評価における既存の限界を克服し、階層的な主語分類、難易度とシナリオの細分化、人間評価との相関が高い新規指標(SICS)、および診断的洞察を提供する包括的なベンチマーク「DSH-Bench」を提案し、19 の主要モデルを評価することで将来の研究指針を確立したものである。

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

この論文は、自律運転における既存のトークンレベルの混合専門家(MoE)メカニズムの限界を克服し、鳥瞰図(BEV)特徴に基づいてエキスパートを選択する「シーン適応型混合専門家(SAMoE-VLA)」を提案することで、パラメータ数を抑えながら最先端の性能を実現する Vision-Language-Action モデルを提示しています。

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs