cs.CV 件の論文 | Gist.Science

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

この論文は、E コマース商品理解における既存の判別モデルの限界を克服し、ガイド付き MoE モジュールや背景ノイズ低減、特殊な負サンプリング戦略を導入した生成型マルチモーダル大規模言語モデル「MOON」と、その評価用大規模ベンチマーク「MBE」を提案し、多様な下游タスクで高い汎化性能を示すことを報告しています。

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

画像を空間解像度は同じだがトークン数が異なる構造列に分解し、空の画像からグローバルなレイアウトへと細部を段階的に生成する「Next Visual Granularity (NVG)」フレームワークを提案し、ImageNet における FID スコアの向上と明確なスケーリング挙動を実証した。

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

本論文は、医療画像におけるオープンエンドな推論における報酬崩壊の問題を解決し、臨床診断ワークフローに即した強固な推論システムを実現するために、ドメイン専門知識の注入と適応的セマンティック報酬を組み合わせた新しい強化学習フレームワーク「ARMed」を提案し、複数のベンチマークで高い精度と汎化性能を実証したものである。

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

この論文は、組織学と転写組学データの異質性、多スケール統合の欠如、および対データへの依存という課題を解決するため、サブ空間分解、多倍率整合、知識蒸留、トークン集約などの戦略を組み合わせた解離型マルチモーダル学習フレームワークを提案し、がんの診断・予後・生存予測において最先端の性能を達成したことを示しています。

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

本論文は、事前学習された拡散モデルの異なる時間ステップにおける生成事前知識を効果的に活用し、単一ステップで忠実度とリアリズムの制御可能なトレードオフを実現する新たなリアルワールド画像超解像手法「TADSR」を提案するものである。

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

本論文は、単一の画像、多視点観測、または単眼動画など多様な日常記録から、大規模ガウス再構成トランスフォーマー（LGRT）を用いて数秒で高品質な 3D ガウススプラッティングモデルを柔軟かつ段階的に再構成する、高速かつ統一された 3D アバター復元フレームワーク「FastAvatar」を提案するものである。

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

本論文は、テキストと視覚情報のバイアスを第一-order 勾配を用いて推定し、追加モデルや微調整なしで既存のマルチモーダル大規模言語モデルの幻覚を抑制し視覚的根拠を強化する推論ベースの手法「GACD」を提案するものである。

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

本論文は、fMRI 画像の領域ごとのテキスト生成とマルチモーダル特徴融合を統合し、脳機能画像の低信号対雑音比や被験者間変動といった課題を克服して脳障害診断の精度を向上させる「RTGMFF」という新しいフレームワークを提案し、ADHD-200 および ABIDE ベンチマークで既存手法を上回る性能を実証したものである。

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

既存の評価基準の限界を克服するため、構成と推論の両方の能力を包括的かつ複雑に評価する新しいベンチマーク「T2I-CoReBench」を提案し、その実験により現在のテキストから画像生成モデルは高密度な構成や暗黙の推論において依然として大きな課題を抱えていることを明らかにしました。

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

本論文は、単一画像からの新規視点合成における曖昧性を解消し、類似物体の参照画像をマルチモーダル大規模言語モデルで選択・統合するユニークなアーキテクチャ「UniView」を提案し、既存の最先端手法を上回る性能を実現したものである。

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

本論文は、参照ベースの注意共有メカニズムと深度マップの活用によるビュー一貫性の向上、およびセグメンテーションマスクに基づく多領域スタイル転送を可能にする新しい損失関数の導入を通じて、テキスト駆動型の 3D シーンスタイライゼーションの品質と一貫性を大幅に改善する手法を提案しています。

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

LADB は、部分的な対データを用いて事前学習済み拡散モデルと潜在空間の整合性を保つことで、データ不足や完全な対データが不要な状況でも高品質なドメイン変換を可能にする半教師ありフレームワークです。

Xuqin Wang, Tao Wu, Yanfeng Zhang + 6 more2026-03-03💻 cs

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

本論文は、多様な撮影条件下で収集された包括的なデータセット「TrueSkin」を提案し、既存の大規模マルチモーダルモデルや生成モデルにおける肌色認識・生成のバイアスを解明するとともに、本データセットを用いた学習により認識精度と生成忠実度を大幅に向上させることを示しています。

Haoming Lu2026-03-03💻 cs

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

この論文では、拡散トランスフォーマー（DiT）の推論遅延を削減し、中間ステップにおける特徴量の高い類似性を利用したブロック単位キャッシング（BWCache）を提案することで、視覚品質を維持したまま最大 6 倍の高速化を実現するトレーニング不要な手法を提示しています。

Hanshuai Cui, Zhiqing Tang, Zhifei Xu + 3 more2026-03-03🤖 cs.AI

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

脳機能ネットワークの階層的な構造を歪みなく表現するために双曲幾何学に基づく「Brain-HGCN」を提案し、精神疾患の分類タスクにおいて既存のユークリッド空間ベースの手法を大幅に上回る性能を達成したことを示した。

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

この論文は、3D 手のポーズ解析と新規な記述子 IHSE を活用した多段階フレームワーク「I2S」を提案し、AR 環境におけるリアルタイムかつ軽量なユーザー認証を可能にする高精度な人間 - 物体相互作用認識を実現したものである。

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

この論文は、深層特徴の内在的な幾何学構造を拡散マップと微分可能なニュートロム補間を用いてモデル化し、可視的かつ解釈可能な細粒度認識においてユークリッド距離に基づくプロトタイプ手法を大幅に上回る性能を達成する「GeoProto」という新たな手法を提案するものである。

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

既存のテキスト生成画像モデルが持つ物理的・解像度の事前知識を、学習不要のフレームワーク「SHINE」を用いて活用し、複雑な照明や反射を考慮した高品質な画像合成を実現するとともに、その評価基準となる新しいベンチマーク「ComplexCompo」を提案する論文です。

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

本論文は、既存の三角形メッシュ変換方式の課題を克服し、混合トポロジーのトークン化と tDPO と呼ばれる強化学習微細化手法を採用することで、四角形メッシュを直接生成する初の自己回帰型フレームワーク「QuadGPT」を提案し、幾何学的精度とトポロジー品質の両面で大幅な改善を実現したことを示しています。

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

本論文は、有限速度の確率流と減衰波動方程式に基づく Kac 表現を導入し、終点のみでの蒸留と速度空間におけるクラスラフリーガイダンスを組み合わせることで、極めて少ない関数評価回数で高品質な画像を生成しつつ数値的安定性を維持する「DistillKac」と呼ばれる高速画像生成モデルを提案しています。

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

← 前へ次へ →