cs.CV 件の論文 | Gist.Science

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

本論文は、多モーダル大規模言語モデルの感情理解能力を向上させるため、心の理論（ToM）に基づく階層的ベンチマーク「HitEmotion」、ToM 誘導の推論チェーン、および中間メンタル状態を教師信号とする強化学習手法「TMPO」を提案し、これらが最先端モデルの感情推論能力の欠陥を明らかにするとともに、精度と推論の忠実性を高めることを実証したものである。

Meng Luo, Bobo Li, Shanqing Xu + 8 more2026-03-03💻 cs

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

本論文は、拡散モデルの事後学習量子化において、異なる時間ステップの勾配方向を整合させるために校正サンプルに最適な重みを学習する新しい手法を提案し、CIFAR-10、LSUN-Bedrooms、ImageNet における実験で既存手法を上回る性能を実証したものである。

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

この論文は、動画理解におけるトークンの冗長性を解決するため、正解への貢献度を明示的に最適化する強化学習ベースの新しいトークン圧縮手法「CaCoVID」を提案し、効率的な推論を実現するものである。

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

本論文は、物理的性質が未知の条件下でも多視点映像から布の動的挙動を教師なしで学習する新たな枠組み「CloDS」を提案し、メッシュベースのガウススプラッティングを用いた双方向マッピングにより、複雑な変形や自己遮蔽に対処しながら高い汎化性能を実現することを示しています。

Yuliang Zhan, Jian Li, Wenbing Huang + 3 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

本論文は、既存のベンチマークが抱える視覚検索の漏洩や非現実的な評価シナリオといった課題を解決するため、現実的な条件下でのマルチモーダル大規模言語モデルの視覚・テキスト検索能力を評価する「Vision-DeepResearch Benchmark（VDR-Bench）」を構築し、さらに効果的な視覚検索を可能にする多段階の切り抜き検索ワークフローを提案するものです。

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

Investigating Disability Representations in Text-to-Image Models

この論文は、Stable Diffusion XL と DALL-E 3 の生成画像を分析し、構造化されたプロンプトとセンチメント分析を用いて障害者の表現における偏りを検証し、より多様で包括的な描写に向けたモデルの継続的な評価と改善の必要性を明らかにしています。

Yang Tian, Yu Fan, Liudmila Zavolokina + 1 more2026-03-03💬 cs.CL

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

本論文は、テキストプロンプトを用いて可変長の動画を効率的に編集する新たな「残差フロー拡散モデル（RFDM）」を提案し、従来の画像モデルと同等の計算コストで高品質な因果的な動画編集を実現するとともに、新たな評価ベンチマークを構築したことを示しています。

Mohammadreza Salehi, Mehdi Noroozi, Luca Morreale + 4 more2026-03-03💻 cs

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

本論文は、単一スライス画像からの 3D 再構成における既存の基礎モデルの限界を定量化し、特に医療画像では深度の曖昧さにより体積的重なりが低いものの、SAM3D がトポロジーの類似性において最も優れていることを示し、信頼性の高い医療 3D 再構成にはドメイン固有の適応と解剖学的制約が必要であると結論付けています。

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

本論文は、リアルタイム動画生成における遅延や時間的安定性の課題を解決するため、マルチ教師学習、適応的 CFG 較正、ハイブリッド長尾強制、VAE デコーダ精製という 4 つの設計要素を備えた「EchoTorrent」を提案し、高品質かつ低遅延なストリーミング型マルチモーダル動画生成を実現するものである。

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

この論文は、Adaptive Instance Normalization を用いた画像分解と位置符号化された時間的注意機構を組み合わせることで、変形場の推定を不要としながらドメイン間画像登録の精度と速度を向上させる「GPEReg-Net」を提案し、複数のベンチマークで既存手法を上回る性能を達成したことを報告しています。

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

OmniCT は、スライス駆動の局所的特徴とボリューム駆動の空間的表現を統合し、臨床的有用性を高めるための新たなパラダイムを確立する、CT 画像の包括的解析に向けた統一されたスライス - ボリューム LVLM です。

Tianwei Lin, Zhongwei Qiu, Wenqiao Zhang + 12 more2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

本論文は、電子顕微鏡画像のドメイン適応セグメンテーションにおいて、スパースな点と局所的な人間の好みを弱教師信号として活用し、自己学習とプロンプト誘導対照学習を統合した「Prefer-DAS」を提案することで、既存の手法や教師ありモデルに匹敵する高い汎用性と精度を実現したことを報告しています。

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

本論文は、全スライド画像の肝細胞癌診断における解像度と特徴集約の課題を解決するため、組織の 2 次元トポロジーを明示的にモデル化する「Sparse Topo-Pack Attention」機構と専門家による検証済み大規模データセット「HepatoPathoVQA」を導入した、専門的なマルチモーダル大規模言語モデル「Hepato-LLaVA」を提案し、診断およびキャプション生成タスクにおいて既存手法を凌駕する性能を達成したことを報告しています。

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

本論文は、医療画像セグメンテーションモデルの信頼性向上に向け、因果推論フレームワークを用いて入力領域やネットワーク構成要素がセグメンテーション結果に与える影響を定量化する新たな説明手法を提案し、既存手法よりも忠実な説明とモデル間の知覚戦略の多様性に関する洞察を提供することを示しています。

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

本論文は、大規模画像データセットの各画像内にある色空間の冗長性を削減しつつモデル学習に不可欠な情報を保持する「Dataset Color Quantization（DCQ）」という統合フレームワークを提案し、CIFAR や ImageNet などの実験を通じて、集約的な圧縮下でもトレーニング性能を大幅に向上させることを実証しています。

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

本論文は、安全な参照画像に悪意あるテキストプロンプトの意図を視覚的指示として埋め込む「Visual Instruction Injection（VII）」という訓練不要かつ転移可能な手法を提案し、画像から動画生成するモデルのセキュリティリスクを明らかにし、複数の最先端モデルにおいて高い攻撃成功率を達成したことを示しています。

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

この論文は、任意の軌道と車両による写真実感的な運転シミュレーションを実現するため、編集可能なガウススプラットとメッシュの組み合わせ、ノイズを考慮した動画拡散プロセス、および包括的な評価ベンチマーク「HorizonSuite」を提案する統合フレームワーク「HorizonForge」を紹介しています。

Yifan Wang, Francesco Pittaluga, Zaid Tasneem + 3 more2026-03-03💻 cs

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

この論文は、単眼深度から光と幾何学の相互作用を符号化する「Light-Geometry Interaction (LGI) マップ」を提案し、これを生成モデルに組み込むことで、物理的に整合性の取れた影の生成と再照明を統合的に実現する手法と、そのための大規模データセットを提示するものである。

Shan Wang, Peixia Li, Chenchen Xu + 4 more2026-03-03💻 cs

PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

本論文は、ユーザーの美的意図を推論し木探索による多段階アクション計画と閉ループ実行を組み合わせることで、ステップごとの指示なしに自律的な高品質な写真編集を実現する「PhotoAgent」システムと、その評価のためのベンチマーク「UGC-Edit」を提案するものである。

Mingde Yao, Zhiyuan You, King-Man Tam + 2 more2026-03-03💻 cs

OmniGAIA: Towards Native Omni-Modal AI Agents

本論文は、視覚・音声・言語を統合したネイティブなオムニモーダル AI エージェントの実現に向け、複雑な推論とツールの活用を評価するベンチマーク「OmniGAIA」と、その評価に基づき学習された高度なツール利用能力を持つ基盤エージェント「OmniAtlas」を提案するものである。

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin + 8 more2026-03-03💬 cs.CL

← 前へ次へ →