cs.CV 件の論文 | Gist.Science

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

本論文は、複数の視点からの画像を圧縮された光場トークン（CLiFT）として表現し、計算リソースに応じてトークン数を動的に調整することで、高品質なニューラルレンダリングを効率的に実現する手法を提案しています。

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

この論文は、大規模視覚言語モデルを活用して高レベルな概念表現を段階的に構築する「Segment Concept (SeC)」フレームワークと、複雑な意味理解を要する新たなベンチマーク「SeCVOS」を提案し、既存の最先端手法を大幅に上回る性能で複雑なビデオ物体セグメンテーションを実現したことを報告しています。

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

本論文は、スタンフォード大学のロボット試験施設と高速シミュレーション環境を組み合わせたハイブリッド・ツインフレームワークを提案し、宇宙機の接近・編隊飛行におけるガイダンス・航法・制御（GNC）システムの信頼性を、ソフトウェアおよびハードウェア・イン・ザ・ループの両面から検証・評価する手法を示しています。

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

本論文は、Panoptic Studio や Ego-Exo4D などのデータセットを用いた実験により、少数のスパースな視点からの動画から動的なシーンを再構築する手法「MonoFusion」を提案し、従来の密な多視点手法が苦手とする限定的な視点重なり下でも、各単眼再構築を整合させることで高品質な動的シーン再構築と新規視点レンダリングを実現することを示しています。

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

本論文は、多変量時系列データの複雑な相互依存関係を捉えるために階層的ハイパーグラフとトランスフォーマーを統合した「HGTS-Former」を提案し、核融合におけるエッジ局所モード（ELM）の認識を含む多様なタスクで最先端の性能を達成したことを報告しています。

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

本論文は、複数のアイソクロマットを共通の特性に基づいてグループ化し、グループ内で計算を共有する「結合更新法」を提案することで、従来の MRI シミュレーションに比べて 3 倍から 72 倍の高速化を実現したことを報告しています。

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

この論文は、介入を視覚シーンに依存しない因果的デルタ埋め込みとして表現することで、追加の教師信号なしに画像ペアから因果表現を学習し、分布外（OOD）の頑健性を大幅に向上させる手法を提案しています。

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

この論文は、視覚状態の遷移を統合的にモデル化し、マクロレベルの計画とミクロレベルの実行という二段階の推論パラダイムを導入することで、計算コストを抑えながら視覚と言語にまたがる一貫性のある推論を実現する「Uni-CoT」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

本論文は、視覚言語モデルに基づく意思決定と運転世界モデルに基づく未来シナリオ生成を統合し、生成された想像されたシナリオを用いて計画を反復的に最適化する新たな自律運転フレームワーク「ImagiDrive」を提案し、nuScenes および NAVSIM データセットにおける広範な実験でその有効性を実証したものである。

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

本論文は、映画のような多ショット動画生成とシームレスな転移を実現するため、大規模なデータセット「Cine250K」を構築し、拡散モデルの注意マップに基づいたマスク制御メカニズムを導入した新しいフレームワーク「CineTrans」を提案するものである。

Xiaoxue Wu, Bingjie Gao, Yu Qiao + 2 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

この論文は、E コマース商品理解における既存の判別モデルの限界を克服し、ガイド付き MoE モジュールや背景ノイズ低減、特殊な負サンプリング戦略を導入した生成型マルチモーダル大規模言語モデル「MOON」と、その評価用大規模ベンチマーク「MBE」を提案し、多様な下游タスクで高い汎化性能を示すことを報告しています。

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

画像を空間解像度は同じだがトークン数が異なる構造列に分解し、空の画像からグローバルなレイアウトへと細部を段階的に生成する「Next Visual Granularity (NVG)」フレームワークを提案し、ImageNet における FID スコアの向上と明確なスケーリング挙動を実証した。

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

本論文は、医療画像におけるオープンエンドな推論における報酬崩壊の問題を解決し、臨床診断ワークフローに即した強固な推論システムを実現するために、ドメイン専門知識の注入と適応的セマンティック報酬を組み合わせた新しい強化学習フレームワーク「ARMed」を提案し、複数のベンチマークで高い精度と汎化性能を実証したものである。

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

この論文は、組織学と転写組学データの異質性、多スケール統合の欠如、および対データへの依存という課題を解決するため、サブ空間分解、多倍率整合、知識蒸留、トークン集約などの戦略を組み合わせた解離型マルチモーダル学習フレームワークを提案し、がんの診断・予後・生存予測において最先端の性能を達成したことを示しています。

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

本論文は、事前学習された拡散モデルの異なる時間ステップにおける生成事前知識を効果的に活用し、単一ステップで忠実度とリアリズムの制御可能なトレードオフを実現する新たなリアルワールド画像超解像手法「TADSR」を提案するものである。

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

本論文は、単一の画像、多視点観測、または単眼動画など多様な日常記録から、大規模ガウス再構成トランスフォーマー（LGRT）を用いて数秒で高品質な 3D ガウススプラッティングモデルを柔軟かつ段階的に再構成する、高速かつ統一された 3D アバター復元フレームワーク「FastAvatar」を提案するものである。

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

本論文は、テキストと視覚情報のバイアスを第一-order 勾配を用いて推定し、追加モデルや微調整なしで既存のマルチモーダル大規模言語モデルの幻覚を抑制し視覚的根拠を強化する推論ベースの手法「GACD」を提案するものである。

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

本論文は、fMRI 画像の領域ごとのテキスト生成とマルチモーダル特徴融合を統合し、脳機能画像の低信号対雑音比や被験者間変動といった課題を克服して脳障害診断の精度を向上させる「RTGMFF」という新しいフレームワークを提案し、ADHD-200 および ABIDE ベンチマークで既存手法を上回る性能を実証したものである。

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

既存の評価基準の限界を克服するため、構成と推論の両方の能力を包括的かつ複雑に評価する新しいベンチマーク「T2I-CoReBench」を提案し、その実験により現在のテキストから画像生成モデルは高密度な構成や暗黙の推論において依然として大きな課題を抱えていることを明らかにしました。

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

本論文は、単一画像からの新規視点合成における曖昧性を解消し、類似物体の参照画像をマルチモーダル大規模言語モデルで選択・統合するユニークなアーキテクチャ「UniView」を提案し、既存の最先端手法を上回る性能を実現したものである。

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs

← 前へ次へ →