MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

本論文は、航空・地上視点間での家畜再識別における視点変化の課題を解決するため、1,000 頭の牛を 128 の視点から撮影した大規模合成データセット「MOO」を提案し、高度角の閾値分析と実世界データへの転移可能性を実証することで、クロス視点動物再識別の基盤を築いたものである。

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

本論文は、画像分野では確立されているが表形式データでは未踏査であった少ショットクラス増分学習に対し、信頼度に基づく疑似ラベル付けと低ストレージコストを活用した混合エピソード学習戦略を導入し、既存手法を大幅に上回る性能を達成する初のフレームワーク「SPRINT」を提案するものである。

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

本論文は、LLM ベースの CAD 生成におけるエンティティ選択の困難さと離散化によるトポロジー誤差を解決するため、B-Rep 幾何情報とポインタに基づく選択メカニズムを統合し、複雑な形状の生成と高精度な編集を可能にする新たなフレームワーク「Pointer-CAD」を提案するものである。

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

本論文は、単眼動画の事前知識から 4D 再構成を行うことで、3D/4D の教師ありデータなしに物理的に妥当な可動部を有する人間 - 物体相互作用(HOI)をゼロショットで合成する新たなフレームワーク「ArtHOI」を提案し、従来の剛体操作に限定されていた生成手法の限界を克服するものである。

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

本論文は、心臓 MRI 合成におけるデータ不足とプライバシー規制の課題に対し、拡散モデル(DDPM、LDM)とフローマッチングを比較評価し、限られたデータ条件下で DDPM が画像忠実度、下流タスクの有用性、プライバシー保護のバランスにおいて最も優れていることを明らかにした。

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

この論文は、ラベル付き画像をクラスあたり 1 枚のみ使用し、大規模言語モデルで生成した対照記述と Vision-Language Foundation Model の識別能力を測定する特徴量に基づいて、ターゲットドメインにおけるゼロショット精度を高い相関で予測するデータ効率の高い手法を提案し、特にアフリカなどのグローバル・サウスに存在する未代表領域におけるモデル評価を低コストで可能にするものです。

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

本論文は、WSI の複雑な形態的異質性に対処し、ノイズの多い外部知識の統合を抑制するために、スパース gated 混合専門家モデルと適応的検索再ランキングを組み合わせた RANGER を提案し、病理報告生成タスクにおいて既存手法を上回る性能を達成したことを示しています。

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

本論文は、マルチモーダル大規模言語モデルを用いた長尺の第一人称視点動画の質問応答タスクにおいて、軽量な学習可能セレクトとトレーニング不要のキーフレーム選択手法を組み合わせた「FocusGraph」を提案し、推論時間の大幅な削減と最先端の性能達成を実現したものである。

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov + 4 more2026-03-05💻 cs

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

VQA-MHUG は、画像と質問の両方に対する人間の注視データを収集した新規データセットであり、これを用いた分析により、5 つの最先端 VQA モデルにおいてテキストに対する人間の注視との相関が性能向上の重要な予測因子であることが初めて示されました。

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

本論文は、160 万枚以上の放射線画像を用いた大規模ベンチマークを通じて、追加学習なしで汎用的な特徴抽出が可能であり、専門的な CBIR システムと同等の性能を達成するビジョン基盤モデル(特に BiomedCLIP)が、放射線分野におけるコンテンツベース画像検索の新たな方向性を示すことを実証しています。

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

本論文は、2D 画像および 3D シーンのニューラル陰関数研究を促進するため、CIFAR-10 や OmniObject3D などの大規模データを含む「Implicit-Zoo」を構築し、トランスフォーマーのトークン位置学習や NeRF による 3D 姿勢回帰などのタスクで性能向上を実現したことを報告しています。

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs