cs.CV 件の論文 | Gist.Science

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Tensor Ring 分解を連続的な関数分解へと拡張し、周波数領域分析に基づいて潜在テンソルと固定基底の構造的重み付けによる再パラメータ化を導入することで、高周波成分のモデル化能力と学習の安定性を向上させ、画像修復や点群復元など多様な多次元データ復元タスクにおいて既存手法を上回る性能を実現する手法が提案されています。

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters

本論文では、大規模な動画生成モデルの推論コストを削減するため、モデルサイズとサンプリングステップ数を同時に圧縮する蒸留フレームワーク「FastLightGen」を提案し、HunyuanVideo や WanX などのモデルにおいて、4 ステップサンプリングと 30% のパラメータ剪定で最適な視覚品質を達成する新たな最先端性能を確立したことを示しています。

Shitong Shao, Yufei Gu, Zeke Xie2026-03-09💻 cs

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

本論文は、強化学習と大規模な合成データパイプラインを活用して、テキスト・画像検索やウェブ閲覧などの長期的なマルチターンツール使用を可能にする自律型マルチモーダル検索エージェント「VSearcher」を提案し、その有効性を新たなベンチマーク「MM-SearchExam」での評価を通じて実証しています。

Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng2026-03-09💻 cs

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

本論文は、リアルタイムな動画ストリームに対応するため、フレームの受取と推論を並列化し、バッチ処理やインターリーブ方式を上回る推論精度と低遅延を実現する「Think-as-You-See (TaYS)」という新しい大規模視覚言語モデル向けストリーミング推論フレームワークを提案するものである。

Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

CoEditor++ は、追加学習を必要とせず「何を編集するか」と「どのように編集するか」の 2 つの認知段階と反射的な自己選択メカニズムを採用することで、複雑な指示に対する高レベルな意味論的推論と視覚的一貫性を両立し、既存のオープンソースモデルやクローズドソースモデルを上回る性能を達成するトレーニングフリーの画像編集フレームワークである。

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

RoboLayout: Differentiable 3D Scene Generation for Embodied Agents

本論文は、視覚言語モデルを拡張し、到達可能性の制約を微分可能な最適化プロセスに統合することで、サービスロボットや人間など多様なエージェントの物理的制約を満たすナビゲーション可能かつ実行可能な 3D 室内シーン生成を実現する「RoboLayout」を提案しています。

Ali Shamsaddinlou2026-03-09🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

本論文は、複数の専門エンコーダやモジュール結合のオーバーヘッドを排除し、単一の密なトランスフォーマー・エンコーダ（Omni-C）を用いて画像・音声・テキストなどの異種モダリティを効率的に共有表現へ圧縮する手法を提案し、リソース制約のある環境でもスケーラブルなマルチモーダル学習を実現することを示しています。

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Clinical-Injection Transformer with Domain-Adapted MAE for Lupus Nephritis Prognosis Prediction

本論文は、小児ループス腎炎の予後予測において、臨床データと PAS 染色組織画像を統合した「臨床注入トランスフォーマー」とドメイン適応型 MAE を採用し、既存手法の課題を克服して高い精度を達成した初のマルチモーダル計算病理フレームワークを提案するものである。

Yuewen Huang, Zhitao Ye, Guangnan Feng, Fudan Zheng, Xia Gao, Yutong Lu2026-03-09🤖 cs.LG

Edges Are All You Need: Robust Gait Recognition via Label-Free Structure

この論文は、従来のシルエットやパース解析の限界を克服するため、ラベルなしで RGB 画像から高周波構造特徴を抽出する新しいモダリティ「SKETCH」と、それをシルエットと補完的に融合する階層的なフレームワーク「SKETCHGAIT」を提案し、ガイト認識の性能を大幅に向上させたことを示しています。

Chao Zhang, Zhuang Zheng, Ruixin Li, Zhanyong Mei2026-03-09💻 cs

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

この論文は、V2X 環境における都市交差点の軌道予測において、標準的な MSE 損失とデジタルツインから導出された交通ルールや衝突回避を考慮した新規な「ツイン損失」を組み合わせることで、予測精度を維持しつつ交通違反や衝突リスクを大幅に低減する安全配慮型の予測パイプラインを提案しています。

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

本論文は、複雑なドキュメントの質問応答タスクにおいて、クエリの難易度に応じた経路選択と、視覚解釈と論理推論を分離した機能デカップリングアーキテクチャを導入することで、推論コストを削減しつつ最先端の性能を達成する「AutoThinkRAG」というフレームワークを提案しています。

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

この論文は、追加データや再学習なしに、従来のモデルから剪定によってバイアスに依存しない部分ネットワークを抽出する「BISE」という手法を提案し、効率的なバイアス軽減を実現することを示しています。

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione2026-03-09🤖 cs.LG

Thinking with Spatial Code for Physical-World Video Reasoning

この論文は、RGB 動画を明示的な 3D 空間コードに変換し、強化学習を用いて大規模言語モデルに物理的な推論を可能にする「Thinking with Spatial Code」というフレームワークを提案し、VSI-Bench において最先端の性能を達成したことを示しています。

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

本論文は、従来の個別検証の限界を克服し、混合整数線形計画（MILP）を用いてキーポイント間の依存関係を考慮した結合検証フレームワークを提案することで、学習ベースのキーポイント検出器の堅牢性を初めて厳密に保証する手法を開発したものである。

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

この論文は、CAD 特有の注釈が不要な点レベルの教師信号を用いて編集可能な BRep を直接生成する多モーダル生成フレームワーク「DreamCAD」と、最大規模の CAD 説明文データセット「CADCap-1M」を提案し、既存手法を凌駕する性能を達成したことを報告しています。

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

この論文は、高内容スクリーニングにおける技術的変動によるバッチ効果をドメイン一般化問題として捉え、特徴統計を構造化された不確実性としてモデル化し、敵対的学習と分布整合を組み合わせる「ABRA」という手法を提案することで、未見のバッチに対する汎化性能を大幅に向上させ、siRNA 擾乱分類において新たな最先端性能を達成したことを示しています。

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

この論文は、既存のカメラ・LiDAR 融合 3D 検出モデルの中間 BEV 特徴量に対して動作する軽量モジュール「Post Fusion Stabilizer (PFS)」を提案し、ドメインシフトやセンサー故障下でも検出性能を維持・向上させることを実証しています。

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

本論文は、概念ボトルネックモデル（CBM）が抱える概念の事前評価指標の欠如や「線形性問題」などの課題を解決し、精度と解釈性を両立させるための包括的なフレームワーク「CBM-Suite」を提案するものである。

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

本論文は、VAE の再構成 FID と拡散モデルの生成 FID の相関が低いという既存の知見を踏まえ、データ点とその潜在空間の最近傍点を補間して計算する「補間 FID（iFID）」を提案し、これが拡散生成の品質と非常に高い相関（約 0.85）を示すことを実証するとともに、両者の相関関係の理論的根拠を明らかにしたものです。

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

この論文は、正解が一意に定まらないタスクにおける強化学習の課題を解決するため、正解との比較ではなく「誤りを列挙・重み付けする Implicit Error Counting (IEC)」手法を提案し、バーチャル試着領域での評価基準としてその有効性を示しています。

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

← 前へ次へ →