cs.CV 件の論文 | Gist.Science

Latent 3D Brain MRI Counterfactual

この論文は、高次元空間における因果モデルの課題を克服するため、VQ-VAE で学習した潜在空間に構造因果モデルを構築し、閉形式の一般化線形モデルを用いて高品質な 3D 脳 MRI 対反事実を生成する 2 段階手法を提案しています。

Wei Peng, Tian Xia, Fabio De Sousa Ribeiro + 5 more2026-03-03🤖 cs.AI

MV-Adapter: Enhancing Underwater Instance Segmentation via Adaptive Channel Attention

本論文は、複雑な水中環境における画像の品質低下や色収差などの課題に対処するため、USIS-SAM モデルに適応的チャネル注意機構を導入した「MV-Adapter」を提案し、水中インスタンスセグメンテーションの精度を向上させる手法を提示しています。

Lianjun Liu2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

非線形な強度変化や極端な視点変化、ラベル付きデータ不足といった課題に対処するため、自己教師あり学習とモジュール設計を採用し、多様なマルチスペクトル画像の整合および登録タスクにおいて最先端の性能を発揮する新しいフレームワーク「XPoint」を提案する。

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

本論文は、音声とポーズの動的調和、頭部データの有効活用、およびフェーズ固有の損失関数を導入することで、追加条件を最小化しつつ高品質な半身人間アニメーションを実現する「EchoMimicV2」を提案し、既存手法を上回る性能を示すものです。

Rang Meng, Xingyu Zhang, Yuming Li + 1 more2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

本論文は、単一のモノクロ画像から食品の3D 点雲を再構成し、2D 画像と 3D 点雲の両方の特徴を統合して深層回帰モデルを用いることで、物理的参照物や深度情報なしに高精度な食品分量推定を実現する新しいフレームワーク「MFP3D」を提案し、MetaFood3D データセットにおける既存手法を上回る性能を実証したものである。

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

本論文は、画像品質評価（IQA）をより微細なレベルで行うための新たなパラダイム「Grounding-IQA」を提案し、これを実現するための大規模データセット「GIQA-160K」とベンチマーク「GIQA-Bench」を構築するとともに、マルチモーダル大規模言語モデルを用いた詳細な品質評価手法を開発したことを示しています。

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

本論文は、観測データとノイズの情報を明示的に組み込んだ「DAWN-FM」という新しいフローマッチング手法を提案し、画像のぼけ除去や断層撮影など、ノイズや不完全なデータに起因する逆問題に対して、従来の事前学習済み拡散モデルよりも頑健で不確実性も定量化可能な高精度な解を導出することを示しています。

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

本論文は、大規模言語モデルを活用した融合型微細記述と、位置情報強化テキストおよび多スケール変形交差モダリティ相互作用を組み合わせた可変形状のアノマリー局在化技術により、ゼロショットおよびフューショット異常検出の精度を飛躍的に向上させる「FiLo++」を提案しています。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

この論文は、直交基底に基づく多項式・三角関数・熱帯化活性化関数を提案し、適切な初期化により大規模モデルの安定した学習を可能にするだけでなく、古典的活性化関数への近似性を通じてファインチューニングへの応用価値を示すものである。

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

この論文は、急性虚血性脳卒中患者のルーチン CT 血管造影（CTA）画像から深層生成推論を用いて虚血性灌流欠損マップを生成し、病変の特定なしに NIHSS 下位スコアに対応する神経基盤を同定し、超急性期における臨床的・科学的価値を有する新たな機能解剖学的モデルを構築したことを示しています。

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

本論文は、CLIP が単一モダリティ内では属性と物体の結合情報を既に符号化しているものの、クロスモーダルな整合性の欠如によりバグ・オブ・ワーズのような振る舞いを示すことを発見し、単純な線形変換によってこの情報を復元可能であることを示しています。

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

本論文は、視覚・聴覚・テキスト入力を同時に評価する初のオムニモーダル動画理解ベンチマーク「WorldSense」を提案し、既存モデルが現実世界のシナリオ理解において依然として課題を抱えていることを示すとともに、今後の開発指針を提供することを目的としています。

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

この論文は、拡散モデルにおけるテキスト生成がパラメータの 1% 未満の注意層に限定されていることを発見し、この特定層を局所化することで、LoRA 微調整による性能向上、画像内テキスト編集、および有害テキストの防止など、多様な応用を可能にする手法を提案しています。

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

この論文は、大規模マルチモーダルモデルの憎悪的ミーム検出における性能と汎化能力を向上させ、敵対的攻撃への耐性や解釈性を高めるための堅牢な適応フレームワークを提案し、複数のデータセットで最先端の成果を達成したことを示しています。

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

ViT の効率性を犠牲にすることなく汎用性を維持し、トークンの幅を調整して新しい「Jumbo トークン」を導入することで、精度と速度の両方を向上させる新しいアーキテクチャを提案する論文です。

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos + 2 more2026-03-03💻 cs

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

この論文は、アラビア語の扇動的ミームと英語のヘイトミームの検出および説明生成を同時に改善するために、新しい大規模データセット「MemeXplain」と多段階最適化アプローチを提案し、既存の最先端手法を上回る性能を達成したことを報告しています。

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Openfly: A comprehensive platform for aerial vision-language navigation

本論文は、屋外空撮における視覚言語ナビゲーション（VLN）の研究を促進するため、多様なレンダリングエンジンと自動化ツールチェーンを活用して大規模データセットとベンチマーク「OpenFly」を構築し、キーフレームを考慮したエージェント「OpenFly-Agent」を提案するものである。

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

LLaVE は、標準的な InfoNCE 損失の限界を克服するために難易度重み付き対照学習を導入し、MMEB ベンチマークで SOTA 性能を達成するとともに、画像 - テキストデータからゼロショットで動画検索タスクにも強力に汎化する大規模マルチモーダル埋め込みモデルを提案するものです。

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

この論文は、既存のモデルと DeepSeek-R1 を活用して作成した高品質なマルチモーダル推論データセットを用いた冷間起動と、過剰思考を抑制する Progressive Thinking Suppression Training 戦略を組み合わせた強化学習により、マルチモーダル大規模言語モデルの推論能力を飛躍的に向上させた「Vision-R1」を提案し、MathVista ベンチマークで OpenAI O1 に匹敵する性能を達成したことを報告しています。

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

本論文は、セマンティックな高次元特徴とピクセルレベルの低次元特徴をそれぞれ独立した階層的なコードブックで表現する「SemHiTok」という新しいユニファイド画像トークナイザーを提案し、マルチモーダルな理解と生成の両方のタスクにおいて優れた性能を実現することを示しています。

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

← 前へ次へ →