cs.CV 件の論文 | Gist.Science

Dark3R: Learning Structure from Motion in the Dark

本論文は、従来の手法が機能しない極端な低照度環境（SNR 4dB 未満）において、大規模な 3D ファウンデーションモデルを教師・学生蒸留プロセスで適応させることで、ノイズの多い生画像から直接構造とモーションを学習し、最先端の 3D 復元と新規視点合成を実現する「Dark3R」フレームワークを提案しています。

Andrew Y Guo, Anagh Malik, SaiKiran Tedla + 7 more2026-03-06💻 cs

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

この論文は、高密度な 3D 再構築やモデルの微調整を必要とせず、視覚言語事前知識モデルを「ナビゲーションフロンティア」を介して統合することで、ゼロショットで汎用的なオープンワールドナビゲーションを実現するトレーニングフリーのフレームワーク「OpenFrontier」を提案するものです。

Esteban Padilla, Boyang Sun, Marc Pollefeys + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

本論文は、従来のカメラの視野制限を克服し、長期的な言語記述に基づく追跡を可能にする新たなタスク「Omnidirectional Referring Multi-Object Tracking (ORMOT)」を提案し、これに対応する大規模なデータセット「ORSet」と大規模視覚言語モデル駆動のフレームワーク「ORTrack」を構築・検証したものである。

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations

本論文は、勾配ベースと領域ベースのクラス活性化マップの長所を統合し、ノイズ除去と適応的な重み付け融合によって、深層学習モデルの意思決定をより頑健かつ詳細に可視化する新しいフレームワーク「Fusion-CAM」を提案するものである。

Hajar Dekdegue, Moncef Garouani, Josiane Mothe + 1 more2026-03-06💻 cs

Loop Closure via Maximal Cliques in 3D LiDAR-Based SLAM

本論文は、RANSAC に代わり特徴対応の互換性グラフにおける最大クリーク探索を用いた決定論的アルゴリズム「CliReg」を提案し、3D LiDAR SLAM におけるループクロージャ検出の精度と頑健性を向上させることを示しています。

Javier Laserna, Saurabh Gupta, Oscar Martinez Mozos + 2 more2026-03-06💻 cs

Video-based Locomotion Analysis for Fish Health Monitoring

本論文は、YOLOv11 を基盤とした多物体追跡システムを開発し、スラウェシ米魚の動画から遊泳方向や速度を高精度に推定することで魚の健康状態を監視する手法を提案し、独自に作成したデータセットを用いた評価結果を報告するものである。

Timon Palm, Clemens Seibold, Anna Hilsmann + 1 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

本論文は、リソース制約のあるモバイル環境での胎児超音波解析を可能にするため、大規模教師モデルのアーキテクチャ的アーティファクトを避けて効率的な特徴学習を促す「選択的反発知識蒸留」手法を提案し、1140 万パラメータの軽量学生モデルが 3 億 400 万パラメータの教師モデルを上回る精度と iPhone 16 Pro でのリアルタイム推論を実現したことを報告しています。

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

RelaxFlow: Text-Driven Amodal 3D Generation

本論文は、観測領域を厳密に保持しつつテキスト指示で非観測領域を補完する「RelaxFlow」という学習不要の双枝フレームワークを提案し、その理論的根拠と評価ベンチマークを提示することで、画像から 3 次元物体の完全生成における曖昧性解決を可能にします。

Jiayin Zhu, Guoji Fu, Xiaolu Liu + 3 more2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

本論文は、弱教師あり密動画キャプション生成タスクにおいて、クロスモーダルアライメントに基づく意味的意識マスクと大規模言語モデルを用いたキャプション拡張戦略を導入し、既存手法の限界を克服して最先端の性能を達成する「SAIL」を提案するものである。

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

この論文は、観測をわずか 8 トークンに圧縮する離散トークナイザー「CompACT」を提案し、世界モデルを用いた意思決定計画の計算コストを劇的に削減しながら、実時間制御への実用的な展開を可能にすることを示しています。

Dongwon Kim, Gawon Seo, Jinsung Lee + 2 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

本論文は、多層的な意図記述とパレットクエリを統合的に考慮し、ラベルなし画像の信頼度に基づく緩和損失を用いてネイルデザイン画像の検索精度を向上させるマルチモーダル手法「NaiLIA」を提案し、大規模なベンチマークによる実験で既存手法を上回る性能を実証したものである。

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs

RealWonder: Real-Time Physical Action-Conditioned Video Generation

本論文は、物理シミュレーションを中間表現として活用し、単一画像から力やロボットの操作などの物理的動作に応じたリアルタイムな動画を生成する初のシステム「RealWonder」を提案し、AR/VR やロボティクス学習などの分野への応用可能性を開拓しています。

Wei Liu, Ziyu Chen, Zizhang Li + 3 more2026-03-06🤖 cs.AI

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

本論文は、拡散言語モデルの推論速度を向上させるため、散在的な受け入れに代わり、KV キャッシュの断片化を防ぎ、一貫性のある最長安定接頭辞を動的に特定・コミットする新しいスケジューラ「LSP」を提案し、これにより推論を最大 3.4 倍高速化しつつ出力品質を維持または向上させることを示しています。

Pengxiang Li, Joey Tsai, Hongwei Xue + 2 more2026-03-06💻 cs

EdgeDAM: Real-time Object Tracking for Mobile Devices

本論文は、エッジデバイス向けにリアルタイム性と追跡精度を両立させるため、二重バッファの妨害物認識メモリと信頼度に基づく切り替え機構を導入した軽量な検出ガイド型単一物体追跡フレームワーク「EdgeDAM」を提案し、iPhone 15 上で 25 FPS の処理速度を維持しながら高い追跡精度を達成することを示しています。

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam + 2 more2026-03-06💻 cs

HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

本論文は、視覚言語モデルがテキストを生成する前に内部表現を解析する軽量プローブを用いることで、単一のフォワードパスで幻覚リスクを検出可能であることを示し、安全性と効率性の向上に寄与する新たなアプローチを提案しています。

Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun + 1 more2026-03-06💻 cs

Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields

この論文は、合成 LWIR 高分光画像データセットを用いて、標準的な Mip-NeRF に対して画像数を約半分に削減し、ガス雲の検出精度を向上させる適応重み付き MSE 損失を備えた改良型ニューラル放射場（NeRF）手法を提案し、その有効性を示したものである。

Scout Jarman, Zigfried Hampel-Arias, Adra Carr + 1 more2026-03-06💻 cs

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

本論文は、自然な日常生活の長時間動画を対象とした新しいデータセット「MM-Lifelong」を提案し、既存のモデルが抱える作業記憶の限界や長期定位の失敗という課題を克服するため、動的メモリ管理を採用した再帰的マルチモーダルエージェント「ReMA」を構築してその有効性を示したものです。

Guo Chen, Lidong Lu, Yicheng Liu + 17 more2026-03-06💻 cs

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

本論文は、トランスフォーマーベースの動画生成モデルにおけるスパースアテンションのパターンをオフラインで較正し、ハードウェア効率よく計算をスキップすることで、学習不要で動画生成品質を維持しつつ最大 1.58 倍の高速化を実現する「CalibAtt」という手法を提案しています。

Shai Yehezkel, Shahar Yadin, Noam Elata + 2 more2026-03-06💻 cs

FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning

FaceCam は、3D 事前知識に依存せずスケールを考慮したカメラ条件付けを導入することで、単眼の人物ポートレート動画から任意のカメラ軌跡で高品質かつ歪みのない動画を生成するシステムです。

Weijie Lyu, Ming-Hsuan Yang, Zhixin Shu2026-03-06💻 cs

Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

本論文は、AR/VR 向けの実時間 3D ストリーミングにおいて、限られたカメラ視点から生じる欠損領域を、時空埋め込みを用いたマルチビュー対応のトランスフォーマーベースの画像後処理モジュールで高品質かつリアルタイムに補完する手法を提案し、画質と速度の最適なバランスを実現することを示しています。

Leif Van Holland, Domenic Zingsheim, Mana Takhsha + 4 more2026-03-06💻 cs

← 前へ次へ →