cs.CV 件の論文 | Gist.Science

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

本論文は、局所的および大域的な文脈を最適輸送を用いて効率的に集約し、トレーニング不要で冗長な視覚トークンを削減しながら動画の時間的・視覚的忠実度を維持する新たな手法「AOT」を提案し、動画大規模言語モデルの効率性と性能を両立させています。

Jinlong Li, Liyuan Jiang, Haonan Zhang + 1 more2026-03-03💻 cs

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

本論文は、音声と動画の潜在トークン間の微細な時間的対応関係を共有自己注意機構を通じて明示的にモデル化するマルチモーダル・トランスフォーマー・ブロックを中核に据え、事前学習済み動画生成モデルの強力な事前知識を活用して高忠実度かつリップシンク精度の高い話者肖像を生成し、さらに短い音声リファレンスから目標スタイルの声をクローンする機能も備えた、オープンソースの最先端アプローチを超えるユニファイド・エンドツーエンド拡散フレームワーク「UniTalking」を提案するものである。

Hebeizi Li, Zihao Liang, Benyuan Sun + 4 more2026-03-03💻 cs

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

この論文は、連続する動画ストリームにおけるリアルタイムな音声・映像インスタンスセグメンテーションを実現するため、因果的クロスアテンション融合モジュールと音声ガイド対照学習戦略を採用した初のオンラインフレームワーク「SeaVIS」を提案し、既存のオフライン手法や外観のみに基づく従来手法の限界を克服して AVISeg データセットで最先端の性能を達成したことを報告しています。

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Unifying Language-Action Understanding and Generation for Autonomous Driving

本論文は、言語と動作トークンを共有離散コードブックに統合し、動作理解タスクを補助的に導入するとともに、効率的な粗密二段階生成手法 C2F を採用することで、言語と動作の整合性を高め推論時間を大幅に削減する、自律運転のための新しい VLA モデル「LinkVLA」を提案しています。

Xinyang Wang, Qian Liu, Wenjie Ding + 7 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

本論文は、MRI 復元タスクにおける物理的制約や劣化構造に応じて、グローバルなトークン混合の有用性が加速再構成や超解像では限定的である一方、空間的に不均一なノイズを含むデノイジングでは顕著に有効であることを示し、その適用はタスク依存であることを明らかにしている。

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

本論文は、事前学習された CLIP モデルのパラメータを変更せずに、グローバルな不整合と局所的な偽造の手がかりをそれぞれ検出する 2 つのストリームを統合し、進化し続けるディープフェイク脅威に対して高い汎化性能を示す「Deepfake Forensics Adapter（DFA）」という新しい双ストリーム検出フレームワークを提案するものである。

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

本論文は、既存の画像中心の手法では防御できないビデオ大規模言語モデル（Video-LLM）の脆弱性を突く初の汎用エネルギー遅延攻撃フレームワーク「VidDoS」を提案し、マスク付き教師強制などの手法を用いて推論遅延を 15 倍以上、トークン数を 205 倍以上に増大させ、自動運転などの安全クリティカルなシナリオにおいて重大な安全違反を引き起こすことを実証している。

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

本論文は、人間の認知過程に着想を得たピラミッド型マルチモーダルメモリ「MM-Mem」を提案し、視覚的詳細から意味的抽象へ段階的に情報を要約する仕組みと、意味情報ボトルネックに基づく最適化手法を導入することで、長期にわたる動画理解タスクにおける既存モデルの限界を克服し、効率的かつ高精度な推論を実現するものです。

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

本論文は、超音波心臓検査のプローブナビゲーションにおいて、ノイズの多い過去の軌跡を単純な時系列ではなく、代表的なキーフレームを空間的アンカーとして直接現在の視点に接続する「星型グラフ」モデル（UltraStar）を提案し、冗長性を排除しつつ長系列データでも高精度な位置特定を実現する手法を提示しています。

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

本論文は、構造化された都市環境に偏る既存のデータセットの限界を克服し、複雑な自然環境におけるロボティクス研究を支援するため、RGB 画像、密な LiDAR 部分地図、正確な 6 自由度姿勢、および半密な深度と法線注釈を含む大規模なクロスモーダルデータセット「WildCross」を提案し、場所認識とメトリック深度推定におけるその有効性を示しています。

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

本論文は、LiDAR 追跡における新規オブジェクトの検出漏れを解消し、従来の検出ベース手法との性能差を埋めるため、アサインメントの再試行と追跡クエリのドロップアウトを導入した新しい追跡モデル「SCATR」を提案し、nuScenes ベンチマークで最先端の性能を達成したことを示しています。

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

本論文は、追加の学習や注釈を必要とせず、アテンションマップとアクションに基づく領域に注目するプラグアンドプレイ型のフレームワーク「ATA」を提案し、視覚言語行動モデルの推論効率を維持・向上させながらタスク成功率とロバスト性を高めることを示しています。

Cheng Yang, Jianhao Jiao, Lingyi Huang + 8 more2026-03-03🤖 cs.AI

Radiometrically Consistent Gaussian Surfels for Inverse Rendering

本論文は、未観測視点からの間接光のモデル化を可能にする物理ベースの制約「放射測度的一貫性」を導入し、高効率かつ高精度な逆レンダリングを実現する「Radiometrically Consistent Gaussian Surfels (RadioGS)」を提案するものである。

Kyu Beom Han, Jaeyoon Kim, Woo Jae Kim + 2 more2026-03-03💻 cs

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

既存のWeb 画像データに依存するベンチマークの限界を克服するため、個人の生活軌跡に基づいた多様なメタデータと視覚情報を統合した「PhotoBench」を提案し、単なる視覚一致から意図駆動型の多ソース推論へとパーソナル写真検索のパラダイム転換を促すとともに、現在の統合埋め込みモデルや自律エージェントシステムの課題を明らかにしました。

Tianyi Xu, Rong Shan, Junjie Wu + 11 more2026-03-03🤖 cs.AI

Rate-Distortion Signatures of Generalization and Information Trade-offs

この論文は、レート歪み理論に基づく新しい枠組みを導入し、視覚システム（人間と深層学習モデル）の一般化と頑健性のトレードオフを「傾き」と「曲率」という幾何学的な署名で定量化・比較することで、両者が異なる損失圧縮原理に従っていることを明らかにしています。

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

本論文は、人間視覚モデルを活用しつつタスク駆動型の損失関数とデータセットを構築することで、セマンティックセグメンテーションや物体検出などの下流タスクの性能向上に特化した水中画像強調フレームワーク「DTI-UIE」を提案し、その有効性を検証した研究です。

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

← 前へ次へ →

cs.CV