cs.CV 件の論文 | Gist.Science

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

本論文は、ロボット操作タスクにおいてフル精度モデルと同等の性能を維持しつつ、モデルメモリを 11 倍、レイテンシを 4.4 倍削減する、すべてのパラメータが 1 ビット（{-1,0,1}）のネイティブな「BitVLA」という新しいビジョン - ランゲージ - アクションモデルを提案し、その実用性を示しています。

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

本論文は、自己教師あり学習により関節物体の幾何学と運動学を連続的に変形可能なガウススプラッティングで統合的にモデル化する「PD²GS」を提案し、その実世界評価用のデータセット「RS-Art」も公開することで、既存手法を上回る精度と連続制御の安定性を実現したことを述べています。

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

本論文は、メタ学習された自己教師あり損失を用いたテスト時適応により、視覚言語モデルの汎化能力と時間的推論を強化し、ゼロショット価値関数として実世界ロボット操作やオフライン強化学習において最先端の性能を達成する「VITA」を提案するものである。

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

本論文は、動画データから直接学習可能なスケーラブルな手法を提案し、ブロック因果拡散トランスフォーマーを用いて文脈に応じた画像編集を実現する「VINCIE」を開発し、既存の手法を上回る性能と多様な応用能力を実証したものです。

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

学習ベースの画像圧縮（NIC）の堅牢性評価の欠如を填补するため、本論文は、多様な攻撃と防御策、標準的なレート歪み指標、および下流タスクへの影響評価を含む包括的なオープンソースベンチマーク「NIC-RobustBench」を提案し、NIC 手法の敵対的攻撃に対する脆弱性と回復力に関する広範な実証研究を行っています。

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

この論文は、FSCIL における知識の衝突を解決するため、海馬の連想記憶に着想を得たプロトタイプ較正と動的構造整合を組み合わせた「ConCM」フレームワークを提案し、大規模ベンチマークで最先端の性能を達成したことを報告しています。

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

本論文は、テキストと視覚情報の不一致が既存の視覚トークン削減手法の限界をもたらすことを指摘し、テキストに依存せず視覚情報のみでトークンを選択・統合するトレーニング不要なフレームワーク「VisionDrop」を提案することで、推論コストを大幅に削減しつつ高精度を維持することを可能にしました。

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

本論文は、13 億パラメータという小規模なモデルで、多様なタスクとモダリティを統合的に処理し、高速かつ高品質な人間アニメーションを実現する効率的なフレームワーク「EchoMimicV3」を提案するものである。

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

本論文は、複数の視点からの画像を圧縮された光場トークン（CLiFT）として表現し、計算リソースに応じてトークン数を動的に調整することで、高品質なニューラルレンダリングを効率的に実現する手法を提案しています。

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

この論文は、大規模視覚言語モデルを活用して高レベルな概念表現を段階的に構築する「Segment Concept (SeC)」フレームワークと、複雑な意味理解を要する新たなベンチマーク「SeCVOS」を提案し、既存の最先端手法を大幅に上回る性能で複雑なビデオ物体セグメンテーションを実現したことを報告しています。

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

本論文は、スタンフォード大学のロボット試験施設と高速シミュレーション環境を組み合わせたハイブリッド・ツインフレームワークを提案し、宇宙機の接近・編隊飛行におけるガイダンス・航法・制御（GNC）システムの信頼性を、ソフトウェアおよびハードウェア・イン・ザ・ループの両面から検証・評価する手法を示しています。

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

本論文は、Panoptic Studio や Ego-Exo4D などのデータセットを用いた実験により、少数のスパースな視点からの動画から動的なシーンを再構築する手法「MonoFusion」を提案し、従来の密な多視点手法が苦手とする限定的な視点重なり下でも、各単眼再構築を整合させることで高品質な動的シーン再構築と新規視点レンダリングを実現することを示しています。

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

本論文は、多変量時系列データの複雑な相互依存関係を捉えるために階層的ハイパーグラフとトランスフォーマーを統合した「HGTS-Former」を提案し、核融合におけるエッジ局所モード（ELM）の認識を含む多様なタスクで最先端の性能を達成したことを報告しています。

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

本論文は、複数のアイソクロマットを共通の特性に基づいてグループ化し、グループ内で計算を共有する「結合更新法」を提案することで、従来の MRI シミュレーションに比べて 3 倍から 72 倍の高速化を実現したことを報告しています。

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

この論文は、介入を視覚シーンに依存しない因果的デルタ埋め込みとして表現することで、追加の教師信号なしに画像ペアから因果表現を学習し、分布外（OOD）の頑健性を大幅に向上させる手法を提案しています。

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

この論文は、視覚状態の遷移を統合的にモデル化し、マクロレベルの計画とミクロレベルの実行という二段階の推論パラダイムを導入することで、計算コストを抑えながら視覚と言語にまたがる一貫性のある推論を実現する「Uni-CoT」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

本論文は、視覚言語モデルに基づく意思決定と運転世界モデルに基づく未来シナリオ生成を統合し、生成された想像されたシナリオを用いて計画を反復的に最適化する新たな自律運転フレームワーク「ImagiDrive」を提案し、nuScenes および NAVSIM データセットにおける広範な実験でその有効性を実証したものである。

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

本論文は、映画のような多ショット動画生成とシームレスな転移を実現するため、大規模なデータセット「Cine250K」を構築し、拡散モデルの注意マップに基づいたマスク制御メカニズムを導入した新しいフレームワーク「CineTrans」を提案するものである。

Xiaoxue Wu, Bingjie Gao, Yu Qiao + 2 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

この論文は、E コマース商品理解における既存の判別モデルの限界を克服し、ガイド付き MoE モジュールや背景ノイズ低減、特殊な負サンプリング戦略を導入した生成型マルチモーダル大規模言語モデル「MOON」と、その評価用大規模ベンチマーク「MBE」を提案し、多様な下游タスクで高い汎化性能を示すことを報告しています。

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

画像を空間解像度は同じだがトークン数が異なる構造列に分解し、空の画像からグローバルなレイアウトへと細部を段階的に生成する「Next Visual Granularity (NVG)」フレームワークを提案し、ImageNet における FID スコアの向上と明確なスケーリング挙動を実証した。

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

← 前へ次へ →

cs.CV