cs.CV 件の論文 | Gist.Science

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

本論文は、大規模データや推論注釈を必要とせず、難易度バイアスを軽減する新しい最適化手法「Dr. GRPO」を採用することで、既存の視覚言語行動モデルよりもはるかに少ないデータと計算コストで自動運転において競争力のある性能を達成する「NoRD」を提案しています。

Ishaan Rawal, Shubh Gupta, Yihan Hu + 1 more2026-02-27🤖 cs.AI

Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

本論文は、マルチモーダル大規模言語モデルの推論能力向上に向け、視覚的複雑さと推論の不確実性に基づいてサンプルを難易度別に再グループ化し、極端なサンプルによる標準偏差の歪みを防ぐ「難易度感知型グループ正規化（Durian）」を提案するものである。

Jinghan Li, Junfeng Fang, Jinda Lu + 5 more2026-02-27💻 cs

EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion

この論文は、内視鏡環境における弱いテクスチャや光の反射といった課題に対処し、拡散モデルを用いて画像と疎な深度情報、深度勾配特徴を統合することで、内視鏡手術ロボットのナビゲーション精度を向上させる新しい深度補完手法「EndoDDC」を提案し、既存の最先端モデルを上回る性能を実証したものです。

Yinheng Lin, Yiming Huang, Beilei Cui + 4 more2026-02-27💻 cs

CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation

本論文は、概念理解と空間定位の表現競合を解決するため、段階的なカリキュラム学習とプログレッシブ・リプレゼンテーション・ウィービング（PRW）モジュールを採用し、画像編集からカスタマイズ生成まで多様な条件付き画像生成タスクを統合的に実現する「CoLoGen」を提案するものです。

YuXin Song, Yu Lu, Haoyuan Sun + 6 more2026-02-27💻 cs

Solaris: Building a Multiplayer Video World Model in Minecraft

この論文は、協調的なマルチエージェント相互作用と同期された動画・行動データの収集を可能にする新たなデータシステムを開発し、段階的な学習パイプラインと「チェックポイント付き自己強制（Checkpointed Self Forcing）」手法を用いて、一貫したマルチビュー観測をシミュレートするマルチプレイヤー動画世界モデル「Solaris」を構築し、既存のベースラインを上回る性能を実証したものである。

Georgy Savva, Oscar Michel, Daohan Lu + 6 more2026-02-27💻 cs

Adaptive Prefiltering for High-Dimensional Similarity Search: A Frequency-Aware Approach

この論文は、クエリ頻度パターンとクラスタ一貫性メトリクスを活用して計算リソースを動的に割り当てる適応型プリフィルタリング手法を提案し、ImageNet-1k における実験で、静的な nprobe 選択と比較して距離計算を 20.4% 削減しながら同等の再帰率を達成することを示しています。

Teodor-Ioan Calin2026-02-27💻 cs

CrossLLM-Mamba: Multimodal State Space Fusion of LLMs for RNA Interaction Prediction

本論文は、生物学的大規模言語モデルの静的な融合の限界を克服し、双方向 Mamba エンコーダを用いた状態空間アライメント手法「CrossLLM-Mamba」を提案することで、RNA-タンパク質、RNA-小分子、RNA-RNA 間の相互作用予測において最先端の性能を達成したことを示しています。

Rabeya Tus Sadia, Qiang Ye, Qiang Cheng2026-02-27🧬 q-bio

Enabling clinical use of foundation models in histopathology

本研究は、基礎モデルの再学習を行わずに下流タスクのモデル訓練時に新しいロバスト性損失を導入することで、組織病理学における基礎モデルの技術的ばらつきへの感度を低減し、臨床実装に適した頑健で高精度な診断モデルの開発を可能にすることを示しています。

Audun L. Henriksen, Ole-Johan Skrede, Lisa van der Schee + 31 more2026-02-27🤖 cs.AI

Optimizing Neural Network Architecture for Medical Image Segmentation Using Monte Carlo Tree Search

本論文は、モンテカルロ木探索とニューラルアーキテクチャ探索を組み合わせ、医療画像セグメンテーションの精度を維持しつつ検索効率とモデル軽量化を大幅に実現した「MNAS-Unet」を提案するものである。

Liping Meng, Fan Nie, Yunyun Zhang + 1 more2026-02-27💻 cs

AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction

本論文は、単一 UAV 動画からの動的 4 次元再構成における深度曖昧性と不安定な運動推定という課題を、モノクロ幾何学的リフティングと物理的制約（接地、直立安定性、軌道滑らかさ）を組み合わせた最適化により解決し、実世界データセットを含めて最先端の性能を実現する「AeroDGS」を提案するものである。

Hanyang Liu, Rongjun Qin2026-02-27🤖 cs.AI

Enhancing Renal Tumor Malignancy Prediction: Deep Learning with Automatic 3D CT Organ Focused Attention

本論文は、手動セグメンテーションを不要としながら、臓器に焦点を当てたアテンション損失関数（OFA）を用いた深層学習フレームワークを開発することで、腎腫瘍の悪性度を従来手法よりも高精度に予測し、臨床意思決定を支援する新しいアプローチを提案しています。

Zhengkang Fan, Chengkun Sun, Russell Terry + 2 more2026-02-27🤖 cs.AI

Vision Transformers Need More Than Registers

本論文は、ViT が背景パッチに依存する「怠惰な集約」行動によってアーティファクトが発生するメカニズムを解明し、CLS トークンへのパッチ特徴の選択的統合により、多様な教師あり・自己教師あり学習タスクにおいてアーティファクトを低減し性能を向上させる手法を提案しています。

Cheng Shi, Yizhou Yu, Sibei Yang2026-02-27💻 cs

MolFM-Lite: Multi-Modal Molecular Property Prediction with Conformer Ensemble Attention and Cross-Modal Fusion

本研究は、1 次元の SELFIES 配列、2 次元の分子グラフ、3 次元のコンフォーマー集合をクロスアテンションで統合し、実験的コンテキストを FiLM で条件付けることで、分子物性予測の精度を大幅に向上させるマルチモーダルモデル「MolFM-Lite」を提案し、その有効性を包括的な評価とオープンソース化によって実証したものである。

Syed Omer Shah, Mohammed Maqsood Ahmed, Danish Mohiuddin Mohammed + 2 more2026-02-27🤖 cs.LG

SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read

本論文は、マルチモーダル大規模言語モデルが画像内のテキストを真に「読んでいる」か否かを検証し、テキスト提示に依存する「モダリティの怠惰」を発見した上で、学習サンプルを画像上にテキストを可視化して提示する「SimpleOCR」という構造制約付きのトレーニング戦略を提案し、アーキテクチャ変更なしに分布外タスクでの性能を大幅に向上させることを示しています。

Yibo Peng, Peng Xia, Ding Zhong + 6 more2026-02-27🤖 cs.LG

Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge

本論文は、プライバシーと遅延の懸念を解消するため、ストリーミング制約下で非同期スレッドを用いてビデオを軽量テキストに変換し、エッジデバイス上でリアルタイムにエピソード記憶に基づく質問応答を実現するマルチモーダル大規模言語モデルの手法を提案し、クラウドベースのソリューションと競合する精度と応答速度を達成したことを示しています。

Giuseppe Lando, Rosario Forte, Antonino Furnari2026-02-27💻 cs

MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

本論文は、プライバシーと再現性を確保しつつ、オープンソースの視覚言語モデルと局所的な検索拡張生成（RAG）を活用して、マンモグラフィーのレポート生成および多タスク分類を可能にする拡張可能なローカルパイプライン「MammoWise」を提案し、その有効性を検証したものである。

Raiyan Jahangir, Nafiz Imtiaz Khan, Amritanand Sudheerkumar + 1 more2026-02-27💻 cs

Space Syntax-guided Post-training for Residential Floor Plan Generation

本論文は、住宅間取り生成において事前学習モデルが軽視しがちな公共空間の支配性や機能的階層性を、空間構文の知識を非微分可能なオラクルを通じて明示的に注入する「SSPT」という事後学習パラダイムを提案し、PPO による強化学習戦略が計算効率と性能の両面で優れていることを示しています。

Zhuoyang Jiang, Dongqing Zhang2026-02-27🤖 cs.LG

Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

この論文は、自己教師あり学習による視覚辞書の学習と意味分解を組み合わせて、参照画像と自然言語による編集指示から意図を正確に反映しつつ多様性のある画像を検索する新しいコンポーズ画像検索手法「Pix2Key」を提案し、DFMM-Compose ベンチマークで既存手法を上回る性能を示したことを報告しています。

Guoyizhe Wei, Yang Jiao, Nan Xi + 4 more2026-02-27💻 cs

HARU-Net: Hybrid Attention Residual U-Net for Edge-Preserving Denoising in Cone-Beam Computed Tomography

本論文は、低線量 CBCT 画像のノイズ除去とエッジ保持を両立させるため、ハイブリッド注意機構と残差学習を組み合わせた「HARU-Net」を提案し、既存の最先端手法を性能と計算コストの面で上回る結果を得たことを報告しています。

Khuram Naveed, Ruben Pauwels2026-02-27⚡ eess

DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

この論文は、T1 強調 MRI と FLAIR MRI から Tau-PET を合成し、各モダリティの寄与を可視化することでアルツハイマー病の病態解析を可能にする、部分情報分解に基づくベクトル量子化エンコーダと構造エッジ条件付き Half-UNet デコーダを組み合わせた「DisQ-HNet」という新しいフレームワークを提案するものです。

Agamdeep S. Chopra, Caitlin Neher, Tianyi Ren + 2 more2026-02-27🤖 cs.AI

← 前へ次へ →