JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

本論文は、シミュレーションデータと実世界の少量ラベルデータ(2.5%)のみで、全量の実データを用いたモデルと同等の性能を達成し、かつ未ラベルの物体検知においても大幅な改善を実現する、自動運転 LiDAR 感知のためのプラグアンドプレイ手法「JiSAM」を提案しています。

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

この論文は、投影や解離型モデルに依存せずに高品質な 3D 意味セマンティックなシーンスケールデータを生成する新たな手法を提案し、これにより実データと合成データを組み合わせて自律走行用のセマンティックセグメンテーションモデルの性能向上とデータ注釈コストの削減を実現することを示しています。

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

本論文は、認知科学の選択的注意に着想を得た「Text Insulation-and-Attention」メカニズムと強化学習を導入し、既存の強固なモデルをパラメータ追加なしで改良して複雑な視覚テキスト生成の精度を飛躍的に向上させるとともに、大規模産業モデルを凌駕する性能を低リソースで達成する新たなベンチマーク「CVTG-2K」を提案する「TextCrafter」を提示しています。

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

本論文は、欠損したモダリティに頑健であり、教師モデルの計算リソースを約 50% 削減しながら多様なセンサー構成での展開を可能にする、新しいマルチモーダル知識蒸留フレームワーク「KARMMA」を提案し、Epic-Kitchens や Something-Something などのデータセットでその有効性を示しています。

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

この論文は、合成ステレオデータセットの設計パラメータを系統的に調査し、ゼロショットステレオマッチングの性能向上に寄与する最適な設定を特定して大規模データセットを構築・公開することで、既存の混合データセットや FoundationStereo と同等以上の性能を達成できることを示しています。

David Yan, Alexander Raistrick, Jia Deng2026-03-02💻 cs

Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization

本論文は、アテンション機構のチャネル冗長性を CNN、アテンション、MLP ブランチに体系的に割り当てるチャネルワイズ機能分解と、SPD 空間におけるクロスレイヤー対照的アライメントを行う多様体正則化を導入することで、多様な劣化に効率的かつ高性能に対応する画像復元フレームワーク「MIRAGE」を提案し、既存の手法を凌駕する性能と効率性を達成したものである。

Bin Ren, Yawei Li, Xu Zheng + 6 more2026-03-02💻 cs

OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection

本論文は、ステージングデータ、合成データ、実世界の事故動画という 3 つのドメインを統合し、プライバシーに配慮しつつ実環境での転送性能を評価できる包括的なフォール検出ベンチマーク「OmniFall」を提案し、合成データが実ステージングデータを凌駕する可能性を示しています。

David Schneider, Zdravko Marinov, Zeyun Zhong + 5 more2026-03-02💻 cs

Cora: Correspondence-aware image editing using few step diffusion

本論文は、拡散モデルを用いた画像編集において、構造的な変化や非剛体変形を伴う編集でもアーティファクトを抑制し、ソース画像の構造やテクスチャを正確に維持しながら高品質な結果を得るために、対応関係に基づくノイズ補正と補間アテンションマップを導入した新しいフレームワーク「Cora」を提案するものである。

Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag + 3 more2026-03-02💻 cs

LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

この論文は、大規模言語モデル(LLM)の知識を活用してテキスト情報を強化し、CLIP による画像・テキスト埋め込みの融合と多重アテンション機構を組み合わせることで、クロスドメイン逐次推薦の精度を大幅に向上させる新しい手法「LLM-EMF」を提案し、複数の電子商取引データセットでの実験によりその有効性を実証したものです。

Wangyu Wu, Zhenhong Chen, Wenqiao Zhang + 5 more2026-03-02💻 cs

Distilling Balanced Knowledge from a Biased Teacher

この論文は、教師モデルのバイアスに起因する長尾分布における知識蒸留の課題を解決するため、予測分布の誤差をグループ間・グループ内で分解し、再重み付けされた損失関数を用いてバランスの取れた知識を抽出する新しいフレームワーク「LTKD」を提案し、複数のデータセットで既存手法を上回る性能を実証しています。

Seonghak Kim2026-03-02💻 cs

SelvaBox: A high-resolution dataset for tropical tree crown detection

本論文は、熱帯林の樹冠検出を目的とした、3 カ国にまたがり 8 万 3 千以上の手動ラベル付き高解像度ドローン画像を含む「SelvaBox」という大規模オープンデータセットを公開し、高解像度入力が検出精度の向上に寄与することや、本データセットで学習したモデルが他データセットにおいても優れた汎化性能を示すことを実証しています。

Hugo Baudchon, Arthur Ouaknine, Martin Weiss + 5 more2026-03-02💻 cs

Knowledge-Guided Machine Learning: Illustrating the use of Explainable Boosting Machines to Identify Overshooting Tops in Satellite Imagery

この論文は、気象分野でまだあまり利用されていない説明可能なブースティングマシン(EBM)を用いて、知識に基づく機械学習アプローチにより衛星画像からオーバーシュート・トップを特定する解釈可能なモデルを開発し、人間の専門家の戦略と機械学習を融合させた手法を提案しています。

Nathan Mitchell, Lander Ver Hoef, Imme Ebert-Uphoff + 4 more2026-03-02🤖 cs.LG

pFedMMA: Personalized Federated Fine-Tuning with Multi-Modal Adapter for Vision-Language Models

本論文は、分散・異質なデータ環境において視覚言語モデルを効率的に適応させるため、モダリティ固有の層と共有投影層を備えたマルチモーダルアダプターを導入し、個人化と汎化性能の両立を達成する新しいパーソナライズド連合学習フレームワーク「pFedMMA」を提案するものである。

Sajjad Ghiasvand, Mahnoosh Alizadeh, Ramtin Pedarsani2026-03-02🤖 cs.LG