cs.CV 件の論文 | Gist.Science

Texture Vector-Quantization and Reconstruction Aware Prediction for Generative Super-Resolution

本論文は、超解像における欠損テクスチャの事前分布をコードブックでモデル化する「テクスチャベクトル量子化」と、画像レベルの教師信号を用いてインデックス予測器を直接学習する「再構成認識予測」を提案し、低計算コストでフォトリアリスティックな超解像を実現する生成モデル（TVQ&RAP）を開発したものである。

Qifan Li, Jiale Zou, Jinhua Zhang, Wei Long, Xingyu Zhou, Shuhang Gu2026-03-24💻 cs

UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections

本論文は、姿勢や被写界深度、画角、遮蔽などが不規則な野生の 2D 写真集合から、チューニング不要で数分以内に高忠実度な 3D 着衣人物を再構築する初の手法「UP2You」を提案し、既存手法を上回る幾何学的精度とテクスチャ忠実度を実現するとともに、任意のポーズ制御やトレーニング不要のバーチャル試着など実用的な応用を可能にすることを示しています。

Zeyu Cai, Ziyang Li, Xiaoben Li, Boqian Li, Zeyu Wang, Zhenyu Zhang, Yuliang Xiu2026-03-24💻 cs

FideDiff: Efficient Diffusion Model for High-Fidelity Image Motion Deblurring

本論文は、従来の拡散モデルが抱える推論時間の遅延と忠実性の低下という課題を解決し、ブランク制御ネットワークと適応的タイムステップ予測を組み合わせた単一ステップの拡散モデル「FideDiff」を提案することで、高忠実度かつ効率的な画像モーションデブラーリングを実現する手法を提示しています。

Xiaoyang Liu, Zhengyan Zhou, Zihang Xu, Jiezhang Cao, Zheng Chen, Yulun Zhang2026-03-24💻 cs

Learning to Generate Rigid Body Interactions with Video Diffusion Models

この論文は、単一の画像と物体の速度指定から物理的に妥当な剛体相互作用を含む動画を生成し、合成データを用いた段階的学習戦略と低・高レベルの条件付けを組み合わせることで、既存の動画生成モデルの物理的妥当性と制御性を大幅に向上させる「KineMask」という手法を提案するものである。

David Romero, Ariana Bermudez, Viacheslav Iablochnikov, Hao Li, Fabio Pizzati, Ivan Laptev2026-03-24🤖 cs.AI

StaR-KVQA: Structured Reasoning Traces for Implicit-Knowledge Visual Question Answering

本論文は、外部知識源を必要とせず、記号的関係パスと視覚的根拠に基づく自然言語説明という二重経路の構造化推論トレースを用いて自己教師あり学習を行うことで、暗黙的知識に基づく視覚的質問応答（IK-KVQA）の精度と推論の透明性を大幅に向上させる「StaR-KVQA」というフレームワークを提案するものです。

Zhihao Wen, Wenkang Wei, Yuan Fang, Xingtong Yu, Hui Zhang, Weicheng Zhu, Xin Zhang2026-03-24🤖 cs.AI

Understanding Temporal Logic Consistency in Video-Language Models through Cross-Modal Attention Discriminability

この論文は、動画言語モデルにおける時間的論理的一貫性の欠如がクロスマーダル注意機構の時間的識別能力の低さに起因することを発見し、注意の区別に基づいた強化手法「TCAS」を提案することで、モデルの時間的理解と論理的一貫性を大幅に向上させることを示しています。

Chengzhi Li, Heyan Huang, Ping Jian, Zhen Yang, Yaning Tian, Zhongbin Guo2026-03-24🤖 cs.AI

Towards Unified World Models for Visual Navigation via Memory-Augmented Planning and Foresight

本論文は、視覚的予測と計画を単一のマルチモーダル自己回帰モデルに統合し、階層的メモリ機構を備えた「UniWM」を提案することで、従来のモジュール型システムに比べて視覚ナビゲーションの成功率を最大 30% 向上させ、未知環境へのゼロショット汎化能力や高次元のヒューマノイド制御へのスケーラビリティを実現したことを報告しています。

Yifei Dong, Fengyi Wu, Guangyu Chen, Lingdong Kong, Xu Zhu, Qiyu Hu, Yuxuan Zhou, Jingdong Sun, Jun-Yan He, Qi Dai, Alexander G. Hauptmann, Zhi-Qi Cheng2026-03-24🤖 cs.AI

GIR-Bench: Versatile Benchmark for Generating Images with Reasoning

この論文は、大規模言語モデルの推論能力と画像理解・生成を統合したマルチモーダルモデルの性能を、理解と生成の一貫性、論理的制約に基づくテキストから画像への生成、および多段階推論を要する画像編集という3つの観点から厳密に評価するための包括的なベンチマーク「GIR-Bench」を提案し、既存モデル間に理解と生成の間に依然としてギャップが存在することを示しています。

Hongxiang Li, Yaowei Li, Bin Lin, Yuwei Niu, Yuhang Yang, Xiaoshuang Huang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Long Chen2026-03-24💻 cs

Your VAR Model is Secretly an Efficient and Explainable Generative Classifier

本論文は、拡散モデルに代わる効率的で説明可能な生成分類器として、可視自己回帰（VAR）モデルを基盤とした「A-VARC+」を提案し、その高い推論速度、トークンごとの相互情報量による視覚的説明性、およびクラス増分学習における忘却耐性を実証しています。

Yi-Chung Chen, David I. Inouye, Jing Gao2026-03-24🤖 cs.LG

What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging

本論文は、視覚言語モデルが抱える肯定バイアスという課題に対処するため、否定文を構造的に生成する新規データセット「CoVAND」と、否定の文脈を維持するトークン結合モジュール「NegToMe」を提案し、物体検出タスクにおける否定理解の精度を大幅に向上させる手法を提示しています。

Inha Kang, Youngsun Lim, Seonho Lee, Jiho Choi, Junsuk Choe, Hyunjung Shim2026-03-24🤖 cs.AI

← 前へ次へ →