SelvaBox: A high-resolution dataset for tropical tree crown detection

本論文は、熱帯林の樹冠検出を目的とした、3 カ国にまたがり 8 万 3 千以上の手動ラベル付き高解像度ドローン画像を含む「SelvaBox」という大規模オープンデータセットを公開し、高解像度入力が検出精度の向上に寄与することや、本データセットで学習したモデルが他データセットにおいても優れた汎化性能を示すことを実証しています。

Hugo Baudchon, Arthur Ouaknine, Martin Weiss + 5 more2026-03-02💻 cs

Knowledge-Guided Machine Learning: Illustrating the use of Explainable Boosting Machines to Identify Overshooting Tops in Satellite Imagery

この論文は、気象分野でまだあまり利用されていない説明可能なブースティングマシン(EBM)を用いて、知識に基づく機械学習アプローチにより衛星画像からオーバーシュート・トップを特定する解釈可能なモデルを開発し、人間の専門家の戦略と機械学習を融合させた手法を提案しています。

Nathan Mitchell, Lander Ver Hoef, Imme Ebert-Uphoff + 4 more2026-03-02🤖 cs.LG

pFedMMA: Personalized Federated Fine-Tuning with Multi-Modal Adapter for Vision-Language Models

本論文は、分散・異質なデータ環境において視覚言語モデルを効率的に適応させるため、モダリティ固有の層と共有投影層を備えたマルチモーダルアダプターを導入し、個人化と汎化性能の両立を達成する新しいパーソナライズド連合学習フレームワーク「pFedMMA」を提案するものである。

Sajjad Ghiasvand, Mahnoosh Alizadeh, Ramtin Pedarsani2026-03-02🤖 cs.LG

Conformal Prediction for Long-Tailed Classification

この論文は、長尾分布を持つ分類タスクにおいて、既存のコンフォーマル予測法が抱える「予測セットのサイズ」と「クラス条件付きカバレッジ」のトレードオフを解消し、マクロカバレッジを最適化する新しいスコア関数と補間手法を提案し、大規模な植物画像データセットでその有効性を示したものである。

Tiffany Ding, Jean-Baptiste Fermanian, Joseph Salmon2026-03-02📊 stat

Animal behavioral analysis and neural encoding with transformer-based self-supervised pretraining

この論文は、ラベル付きデータが不足している状況でも多様な神経行動分析を可能にするため、マスク付き自己符号化と時間的対照学習を組み合わせて未ラベル動画データから実験固有のビジョントランスフォーマーを事前学習する新しいフレームワーク「BEAST」を提案し、その有効性を複数の種およびタスクで実証したものである。

Yanchen Wang, Han Yu, Ari Blau + 5 more2026-03-02🧬 q-bio

Fast Learning of Non-Cooperative Spacecraft 3D Models through Primitive Initialization

この論文は、単一画像からプリミティブを推定する CNN 初期化器とノイズのある姿勢推定に対応するパイプラインを導入することで、宇宙環境における高精度な 3D 物体モデルの学習を、必要な画像数と計算コストを大幅に削減しながら実現する手法を提案しています。

Pol Francesch Huc, Emily Bates, Simone D'Amico2026-03-02🤖 cs.LG

DA-Occ: Direction-Aware 2D Convolution for Efficient and Geometry-Preserving 3D Occupancy Prediction in Autonomous Driving

本論文は、自律走行における 3D 空間占有予測の精度と効率性を両立させるため、Lift-Splat-Shoot パラダイムを基盤とし、垂直方向の幾何学的情報を明示的に符号化する高さスコア投影と方向認識型畳み込みを導入した「DA-Occ」という純粋な 2D フレームワークを提案し、nuScenes データセットで高精度かつリアルタイム推論を実現したことを述べています。

Yuchen Zhou, Yan Luo, Xiaogang Wang + 3 more2026-03-02💻 cs

AutoDebias: Automated Framework for Debiasing Text-to-Image Models

本論文は、テキストから画像を生成するモデルに仕込まれた悪意のあるバイアス(バックドア攻撃)を、事前知識なしに自動的に検出し、視覚言語モデルと CLIP 導出のトレーニングを用いて画像の品質を維持したまま除去するフレームワーク「AutoDebias」を提案し、その有効性を検証したものである。

Hongyi Cai, Mohammad Mahdinur Rahman, Mingkang Dong + 7 more2026-03-02💻 cs

Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation

本論文は、3D 医療画像セグメンテーションにおいて、自己注意機構に代わって適応フーリエニューラル演算子(AFNO)を採用することで計算効率を向上させながら、最先端の性能を達成する軽量モデル「AMBER-AFNO」を提案し、複数の公開データセットでその有効性を検証したものである。

Andrea Dosi, Semanto Mondal, Rajib Chandra Ghosh + 2 more2026-03-02⚡ eess

Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models

本論文は、CLIP モデルなどのマルチモーダルモデルが自然画像とは異なる構造的・記号的な情報を持つ図表の理解に課題を抱えている点に着目し、図表の構造的特性を活用した「ハード」サンプルを用いた対照学習と 2 つの専用損失関数を導入する新たな訓練パラダイムを提案し、フローチャットなどの図表理解タスクにおいて既存手法を大幅に上回る性能向上を実証したものです。

Hiroshi Sasaki2026-03-02🤖 cs.AI

Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

本論文は、画像編集における理解モジュールと生成モジュールの役割分担の非対称性を解消するため、複雑な指示理解と編集の設計図を明示的に提供する大規模データセット「Draw-In-Mind」を提案し、これにより小規模モデルでも最先端の画像編集性能を達成することを示しています。

Ziyun Zeng, David Junhao Zhang, Wei Li + 1 more2026-03-02🤖 cs.AI

MEGS2^{2}: Memory-Efficient Gaussian Splatting via Spherical Gaussians and Unified Pruning

本論文は、高次球面調和関数の代わりに軽量な球面ガウスローブを採用し、プリミティブ数とローブ数の剪定を統合的に最適化する「MEGS2^{2}」を提案することで、レンダリング時の VRAM 使用量を大幅に削減しつつ画質を維持するメモリ効率の良い 3D ガウススプラッティング手法を確立した。

Jiarui Chen, Yikeng Chen, Yingshuang Zou + 5 more2026-03-02🤖 cs.AI

Unsupervised Representation Learning for 3D Mesh Parameterization with Semantic and Visibility Objectives

本論文は、手動の UV マッピングに依存せず、セマンティックな整合性と可視性(目立たない継ぎ目)を考慮した教師なし学習フレームワークを提案し、3D メッシュのパラメータ化を自動化してテクスチャ生成の品質向上と継ぎ目アーティファクトの低減を実現するものである。

AmirHossein Zamani, Bruno Roy, Arianna Rampini2026-03-02💻 cs

Universal Beta Splatting

本論文は、3D ガウススプラッティングを N 次元の異方性ベータカーネルに一般化した統一フレームワーク「Universal Beta Splatting」を提案し、補助ネットワークを必要とせずに空間・角度・時間的な依存関係を統一的にモデル化することで、リアルタイムレンダリング性能と既存手法を上回る画質を実現するものです。

Rong Liu, Zhongpai Gao, Benjamin Planche + 8 more2026-03-02⚡ eess