cs.CV 件の論文 | Gist.Science

MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

本論文は、航空・地上視点間での家畜再識別における視点変化の課題を解決するため、1,000 頭の牛を 128 の視点から撮影した大規模合成データセット「MOO」を提案し、高度角の閾値分析と実世界データへの転移可能性を実証することで、クロス視点動物再識別の基盤を築いたものである。

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

本論文は、画像分野では確立されているが表形式データでは未踏査であった少ショットクラス増分学習に対し、信頼度に基づく疑似ラベル付けと低ストレージコストを活用した混合エピソード学習戦略を導入し、既存手法を大幅に上回る性能を達成する初のフレームワーク「SPRINT」を提案するものである。

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

本論文は、生成 AI を用いた合成環境画像の現実性を評価するスケーラブルな枠組みを提案し、霧や雨などの条件において従来のルールベース手法を大幅に凌駕し、実画像に匹敵する品質を達成できることを示しています。

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

本論文は、LLM ベースの CAD 生成におけるエンティティ選択の困難さと離散化によるトポロジー誤差を解決するため、B-Rep 幾何情報とポインタに基づく選択メカニズムを統合し、複雑な形状の生成と高精度な編集を可能にする新たなフレームワーク「Pointer-CAD」を提案するものである。

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

本論文は、単眼動画の事前知識から 4D 再構成を行うことで、3D/4D の教師ありデータなしに物理的に妥当な可動部を有する人間 - 物体相互作用（HOI）をゼロショットで合成する新たなフレームワーク「ArtHOI」を提案し、従来の剛体操作に限定されていた生成手法の限界を克服するものである。

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

本論文は、心臓 MRI 合成におけるデータ不足とプライバシー規制の課題に対し、拡散モデル（DDPM、LDM）とフローマッチングを比較評価し、限られたデータ条件下で DDPM が画像忠実度、下流タスクの有用性、プライバシー保護のバランスにおいて最も優れていることを明らかにした。

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

本論文は、検証セットを必要とせず、1 ショットのホールドアウトデータを用いて CLIP アダプターのブレンド比率を学習する「HOSO」手法を提案し、検証フリーのFew-Shot 設定において既存の CLIP-Adapter を大幅に上回る性能を達成することを示しています。

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

Enhancing Authorship Attribution with Synthetic Paintings

本論文は、Stable Diffusion の DreamBooth 微調整によって生成された合成画像を実作品と組み合わせるハイブリッド手法を提案し、データ不足に直面する絵画の作者帰属タスクにおける分類モデルの精度と汎化性能を向上させることを示しています。

Clarissa Loures, Caio Hosken, Luan Oliveira + 2 more2026-03-05🤖 cs.LG

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

この論文は、ラベル付き画像をクラスあたり 1 枚のみ使用し、大規模言語モデルで生成した対照記述と Vision-Language Foundation Model の識別能力を測定する特徴量に基づいて、ターゲットドメインにおけるゼロショット精度を高い相関で予測するデータ効率の高い手法を提案し、特にアフリカなどのグローバル・サウスに存在する未代表領域におけるモデル評価を低コストで可能にするものです。

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

本論文は、WSI の複雑な形態的異質性に対処し、ノイズの多い外部知識の統合を抑制するために、スパース gated 混合専門家モデルと適応的検索再ランキングを組み合わせた RANGER を提案し、病理報告生成タスクにおいて既存手法を上回る性能を達成したことを示しています。

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

本論文は、マルチモーダル大規模言語モデルを用いた長尺の第一人称視点動画の質問応答タスクにおいて、軽量な学習可能セレクトとトレーニング不要のキーフレーム選択手法を組み合わせた「FocusGraph」を提案し、推論時間の大幅な削減と最先端の性能達成を実現したものである。

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov + 4 more2026-03-05💻 cs

Helios: Real Real-Time Long Video Generation Model

Helios は、140 億パラメータのモデルでありながら単一 H100 GPU で 19.5 FPS のリアルタイム生成を実現し、特別な加速技術や並列フレームワークなしに数分間の長動画生成を可能にする画期的なモデルです。

Shenghai Yuan, Yuanyang Yin, Zongjian Li + 3 more2026-03-05💻 cs

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

本論文は、階層的な中間報酬を用いた強化学習アプローチ「TaxonRL」を提案し、視覚的に類似した生物種の識別において人間の性能を上回る精度と解釈可能な推論過程を実現したことを報告しています。

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

本論文は、多数の画像集合を単一のフォワードパスでコンパクトな隠れシーン状態に圧縮し、既存の二次時間計算量を持つ手法を精度を維持しつつ 20 倍以上高速化する線形時間の状態保持型 3D 再構築モデル「ZipMap」を提案するものである。

Haian Jin, Rundi Wu, Tianyuan Zhang + 4 more2026-03-05🤖 cs.AI

SimpliHuMoN: Simplifying Human Motion Prediction

本論文は、自己注意機構を用いたシンプルかつ効果的なトランスフォーマーモデル「SimpliHuMoN」を提案し、歩行軌道と人体姿勢の両方を統合的に予測する新たなアプローチにより、複数の主要ベンチマークで最先端の性能を達成したことを示しています。

Aadya Agrawal, Alexander Schwing2026-03-05🤖 cs.LG

Thought Flow Nets: From Single Predictions to Trains of Model Thought

この論文は、ヘーゲルの弁証法に触発され、モデルが単一の出力ではなく自己修正メカニズムを備えた「思考の流れ」を生成することで、予測の精度向上と人間による評価の改善を実現する手法「Thought Flow Nets」を提案し、その有効性を示しています。

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

VQA-MHUG は、画像と質問の両方に対する人間の注視データを収集した新規データセットであり、これを用いた分析により、5 つの最先端 VQA モデルにおいてテキストに対する人間の注視との相関が性能向上の重要な予測因子であることが初めて示されました。

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Multimodal Integration of Human-Like Attention in Visual Question Answering

本論文は、画像とテキストの両方における人間のような注意を統合する初の手法「MULAN」を提案し、VQAv2 データセットにおいて既存の手法よりも少ない学習パラメータで最高精度を達成したことを示しています。

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

本論文は、160 万枚以上の放射線画像を用いた大規模ベンチマークを通じて、追加学習なしで汎用的な特徴抽出が可能であり、専門的な CBIR システムと同等の性能を達成するビジョン基盤モデル（特に BiomedCLIP）が、放射線分野におけるコンテンツベース画像検索の新たな方向性を示すことを実証しています。

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

本論文は、2D 画像および 3D シーンのニューラル陰関数研究を促進するため、CIFAR-10 や OmniObject3D などの大規模データを含む「Implicit-Zoo」を構築し、トランスフォーマーのトークン位置学習や NeRF による 3D 姿勢回帰などのタスクで性能向上を実現したことを報告しています。

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs

← 前へ次へ →