Dark3R: Learning Structure from Motion in the Dark

本論文は、従来の手法が機能しない極端な低照度環境(SNR 4dB 未満)において、大規模な 3D ファウンデーションモデルを教師・学生蒸留プロセスで適応させることで、ノイズの多い生画像から直接構造とモーションを学習し、最先端の 3D 復元と新規視点合成を実現する「Dark3R」フレームワークを提案しています。

Andrew Y Guo, Anagh Malik, SaiKiran Tedla + 7 more2026-03-06💻 cs

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

この論文は、高密度な 3D 再構築やモデルの微調整を必要とせず、視覚言語事前知識モデルを「ナビゲーションフロンティア」を介して統合することで、ゼロショットで汎用的なオープンワールドナビゲーションを実現するトレーニングフリーのフレームワーク「OpenFrontier」を提案するものです。

Esteban Padilla, Boyang Sun, Marc Pollefeys + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

本論文は、従来のカメラの視野制限を克服し、長期的な言語記述に基づく追跡を可能にする新たなタスク「Omnidirectional Referring Multi-Object Tracking (ORMOT)」を提案し、これに対応する大規模なデータセット「ORSet」と大規模視覚言語モデル駆動のフレームワーク「ORTrack」を構築・検証したものである。

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

本論文は、リソース制約のあるモバイル環境での胎児超音波解析を可能にするため、大規模教師モデルのアーキテクチャ的アーティファクトを避けて効率的な特徴学習を促す「選択的反発知識蒸留」手法を提案し、1140 万パラメータの軽量学生モデルが 3 億 400 万パラメータの教師モデルを上回る精度と iPhone 16 Pro でのリアルタイム推論を実現したことを報告しています。

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

本論文は、弱教師あり密動画キャプション生成タスクにおいて、クロスモーダルアライメントに基づく意味的意識マスクと大規模言語モデルを用いたキャプション拡張戦略を導入し、既存手法の限界を克服して最先端の性能を達成する「SAIL」を提案するものである。

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

本論文は、多層的な意図記述とパレットクエリを統合的に考慮し、ラベルなし画像の信頼度に基づく緩和損失を用いてネイルデザイン画像の検索精度を向上させるマルチモーダル手法「NaiLIA」を提案し、大規模なベンチマークによる実験で既存手法を上回る性能を実証したものである。

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

本論文は、拡散言語モデルの推論速度を向上させるため、散在的な受け入れに代わり、KV キャッシュの断片化を防ぎ、一貫性のある最長安定接頭辞を動的に特定・コミットする新しいスケジューラ「LSP」を提案し、これにより推論を最大 3.4 倍高速化しつつ出力品質を維持または向上させることを示しています。

Pengxiang Li, Joey Tsai, Hongwei Xue + 2 more2026-03-06💻 cs

EdgeDAM: Real-time Object Tracking for Mobile Devices

本論文は、エッジデバイス向けにリアルタイム性と追跡精度を両立させるため、二重バッファの妨害物認識メモリと信頼度に基づく切り替え機構を導入した軽量な検出ガイド型単一物体追跡フレームワーク「EdgeDAM」を提案し、iPhone 15 上で 25 FPS の処理速度を維持しながら高い追跡精度を達成することを示しています。

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam + 2 more2026-03-06💻 cs

Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields

この論文は、合成 LWIR 高分光画像データセットを用いて、標準的な Mip-NeRF に対して画像数を約半分に削減し、ガス雲の検出精度を向上させる適応重み付き MSE 損失を備えた改良型ニューラル放射場(NeRF)手法を提案し、その有効性を示したものである。

Scout Jarman, Zigfried Hampel-Arias, Adra Carr + 1 more2026-03-06💻 cs

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

本論文は、自然な日常生活の長時間動画を対象とした新しいデータセット「MM-Lifelong」を提案し、既存のモデルが抱える作業記憶の限界や長期定位の失敗という課題を克服するため、動的メモリ管理を採用した再帰的マルチモーダルエージェント「ReMA」を構築してその有効性を示したものです。

Guo Chen, Lidong Lu, Yicheng Liu + 17 more2026-03-06💻 cs

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

本論文は、トランスフォーマーベースの動画生成モデルにおけるスパースアテンションのパターンをオフラインで較正し、ハードウェア効率よく計算をスキップすることで、学習不要で動画生成品質を維持しつつ最大 1.58 倍の高速化を実現する「CalibAtt」という手法を提案しています。

Shai Yehezkel, Shahar Yadin, Noam Elata + 2 more2026-03-06💻 cs

Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

本論文は、AR/VR 向けの実時間 3D ストリーミングにおいて、限られたカメラ視点から生じる欠損領域を、時空埋め込みを用いたマルチビュー対応のトランスフォーマーベースの画像後処理モジュールで高品質かつリアルタイムに補完する手法を提案し、画質と速度の最適なバランスを実現することを示しています。

Leif Van Holland, Domenic Zingsheim, Mana Takhsha + 4 more2026-03-06💻 cs