LightMem: Lightweight and Efficient Memory-Augmented Generation

Atkinson-Shiffrin の人間の記憶モデルに着想を得た LightMem は、感覚記憶・短期記憶・長期記憶の 3 段階構造とオフライン更新を導入することで、LLM の対話履歴活用における性能を向上させつつ、トークン数や API 呼び出しを大幅に削減する軽量かつ効率的なメモリシステムを実現します。

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

VoMP: Predicting Volumetric Mechanical Property Fields

VoMP は、3D オブジェクトの体積全体にわたってヤング率、ポアソン比、密度などの機械的特性を予測する新しいフードフォワード手法であり、物理的に妥当な材料多様体上で学習されたジオメトリ・トランスフォーマーと、視覚言語モデルを活用した新しいアノテーションパイプラインにより、従来手法を大幅に上回る精度と速度を実現します。

Rishit Dagli, Donglai Xiang, Vismay Modi + 7 more2026-03-03🤖 cs.LG

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

この論文は、人間の多感覚統合の概念に着想を得て、2D と 3D の自己教師あり学習を組み合わせる「Concerto」を提案し、これにより単独のモデルや既存の手法を凌駕する優れた空間表現を学習し、3D シーン理解やオープンワールド知覚において最先端の結果を達成したことを示しています。

Yujia Zhang, Xiaoyang Wu, Yixing Lao + 4 more2026-03-03💻 cs

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

本論文は、視覚トークンの空間的冗長性と機能的異質性という課題に対処するため、条件付きルーティングとプロトタイプに基づくセマンティックなルーティングを組み合わせた明示的ガイダンスを備えた二段階ルーター「ProMoE」を提案し、ImageNet における最先端の拡散トランスフォーマーモデルの性能を向上させることを示しています。

Yujie Wei, Shiwei Zhang, Hangjie Yuan + 8 more2026-03-03💻 cs

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

この論文は、音声のみから統計的な顔の事前知識や領域強化モジュール、およびトランスフォーマーベースの離散コードブックを活用して、高解像度かつ高品質な話者動画を生成する新規手法を提案し、既存の手法を上回る性能を実証したものです。

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

本論文は、動画拡散トランスフォーマーの学習長を超えた外挿における品質劣化と周期性の反復という 2 つの失敗モードが、位置符号に起因するアテンションの分散に統一的に起因することを発見し、学習不要なプラグイン手法「UltraViCo」を提案することで、外挿限界を 2 倍から 4 倍に引き上げ、既存手法を大幅に凌駕する性能を実現した。

Min Zhao, Hongzhou Zhu, Yingze Wang + 6 more2026-03-03💻 cs

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

本論文は、リモートセンシング画像におけるドメインシフトとアノテーション不足の問題を解決するため、点注釈のみを用いて「精緻化・再照会・強化」のループにより SAM を適応させる自己プロンプトフレームワーク「ReSAM」を提案し、複数のベンチマークで既存手法を上回る性能を実証したものである。

M. Naseer Subhani2026-03-03💻 cs

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

本論文は、画像の構造的特徴(位相スペクトル)とスタイル特徴(振幅スペクトル)をフーリエ解析を用いて明示的に分離し、双方向のクロスアテンション機構を通じて視覚言語モデルに注入することで、少数ショット汎化性能を向上させる「Fourier-Attentive Representation Learning (FARL)」という新たなフレームワークを提案しています。

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

本論文は、スーダンの紛争地域における火災を近リアルタイムで検出するため、4 バンドの Planet Labs 衛星画像を用いた軽量な教師なし深層学習モデル(VAE)を開発し、既存の手法よりも高い精度と再現率で 24〜30 時間以内に被害範囲を特定できることを実証したものである。

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

本論文は、継続的テスト時適応(CTTA)において、既存研究が固定化してきたマスキングの「家族(空間的か周波数的か)」を体系的に評価し、トランスフォーマーアーキテクチャでは空間的マスキングが安定性を保つ一方、CNN や微細なタスクでは周波数マスキングが有効となるなど、アーキテクチャとタスクの整合性に応じた最適なマスキング戦略を明らかにした。

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

本論文は、脳機能ネットワークを構成するノイズの多い fMRI 信号を堅牢な意味トークンに集約し、自己蒸留と学習カリキュラムを用いて安定した抽象表現を学習する自己教師ありフレームワーク「Brain-Semantoks」を提案し、これにより少量のラベル付きデータやドメイン適応なしでも多様な下流タスクで高い性能を発揮できることを示しています。

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

ββ-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

この論文は、画像とテキストの多段階的な粒度(文やフレーズなど)を階層的に整合させるために、動的なプーリングと新しい対照損失関数(β-CAL)を導入した新しいフレームワーク「β-CLIP」を提案し、ハードネガティブなしで学習する手法の中で最先端の密な視覚言語対応を実現したことを示しています。

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs