SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

本論文は、フリーハンドスケッチをラスター画像やストローク系列ではなく構造化グラフとして直接モデル化する「SketchGraphNet」を提案し、344 万点のスケッチを含む大規模ベンチマーク「SketchGraph」上で、補助的な位置・構造エンコーディングを不要としながら、メモリ効率と精度を両立した認識を実現したことを報告しています。

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

Neural Dynamics-Informed Pre-trained Framework for Personalized Brain Functional Network Construction

この論文は、事前定義された脳アトラスや線形仮定に依存する既存手法の限界を克服し、神経動態を考慮した事前学習フレームワークを導入することで、多様なシナリオにおける個人固有の脳機能ネットワーク構築を実現し、その汎用性と精度を大幅に向上させることを提案しています。

Hongjie Jiang, Yifei Tang, Shuqiang Wang2026-03-10🤖 cs.LG

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

この論文は、長編のテキストと画像を交互に生成する際に視覚履歴の蓄積が品質劣化を招くという課題を特定し、モデル内部の関連性に基づいて不要な視覚情報を動的に排除する「UniLongGen」という推論戦略を提案することで、長期生成の安定性と忠実度を大幅に向上させることを示しています。

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

DreamSAC は、ハミルトニアンに基づく好奇心ボーナスを用いた対称性探索戦略と、生データから物理的保存則を学習する自己教師ありコントラスト学習を組み合わせた世界モデルを導入することで、統計的相関ではなく物理法則を習得し、未知の物理特性への外挿一般化を飛躍的に向上させる手法を提案しています。

Jinzhou Tang, Fan Feng, Minghao Fu, Wenjun Lin, Biwei Huang, Keze Wang2026-03-10🤖 cs.LG

Learning-free L2-Accented Speech Generation using Phonological Rules

この論文は、大規模なアクセント付きデータや学習を必要とせず、音韻規則と多言語 TTS モデルを組み合わせることで、音声の明瞭さを保ちながらスペイン語やインド英語などのアクセントを音素レベルで制御可能な新しい音声合成フレームワークを提案するものである。

Thanathai Lertpetchpun, Yoonjeong Lee, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

この論文は、ゼロショット音声合成モデルから特定の話者アイデンティティを除去する「音声生成話者ポイズニング(SGSP)」という新たな課題を定義し、15 名までの話者に対してプライバシー保護とモデル有用性の両立を達成するフレームワークを提案しています。

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth Narayanan2026-03-10💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

ネパール語(ネワール語)の音声認識におけるリソース不足を解消するため、5.39 時間の手書き転写コーパス「Nwāchā Munā」を公開し、大規模多言語モデルに匹敵する性能を、近隣言語であるネパール語からの転移学習によって達成したことを報告する論文です。

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

この論文は、生成・再構成・識別の 3 要素と関心領域(ROI)アテンション機構を組み合わせた GRD-Net を提案し、不良検出における従来のポストプロセッシング依存を排除し、MVTec データセットや製薬業界の実際のデータを用いた実用的な異常検出と欠陥局所化を実現する手法を述べています。

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

本論文は、画像分類における分布外(OOD)検出の性能を評価するため、クロスエントロピー損失、プロトタイプ損失、トリプレット損失、平均精度損失の 4 つの代表的な学習目的関数を OpenOOD 基準で体系的に比較し、クロスエントロピー損失が全体的に最も一貫した OOD 検出性能を示すことを明らかにしています。

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

本論文は、医薬品製造のブロー・フィル・シーリング(BFS)ラインにおける高速なオンライン異常検出を実現するため、正常サンプルのみで学習する生成敵対的アーキテクチャに基づく半教師ありフレームワークを提案し、500ms の時間制約内で高精度な検出と局所化を達成したことを報告しています。

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

この論文は、NVIDIA Omniverse を活用したアルジェ国際空港のデジタルツインに基づく合成データ生成パイプラインを提案し、限られた実データのアノテーションを合成データと組み合わせることで、手作業を 25〜35% 削減しつつも、高密度で重なり合う手荷物カートの検出において実データのみを使用する場合と同等以上の精度を達成できることを実証しています。

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

本論文は、長期のタスクや継続的な学習を可能にするため、タスク計画、原子スキルの抽象化、微細な動作を統合的に生成し、エキスパートの動的な組み合わせによって拡張性と汎用性を高める「AtomicVLA」という新しいロボティクスフレームワークを提案しています。

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

AI-Driven Phase Identification from X-ray Hyperspectral Imaging of cycled Na-ion Cathode Materials

本研究では、スパースなサンプリング条件下でナトリウムイオン電池正極材料のナノスケール相分布を特定し、曖昧な領域や粒界での遷移相を同定するために、ガウス混合変分オートエンコーダとピアソン相関係数を組み合わせた AI 駆動型ワークフローを開発し、STXM データを用いて NaxV2(PO4)2F3 粒子内の相の不均一性と進化を解明しました。

Fayçal Adrar, Nicolas Folastre, Chloé Pablos, Stefan Stanescu, Sufal Swaraj, Raghvender Raghvender, François Cadiou, Laurence Croguennec, Matthieu Bugnet, Arnaud Demortière2026-03-10🔬 cond-mat.mtrl-sci

Compressed-Domain-Aware Online Video Super-Resolution

本論文は、動画ストリーミングの帯域幅制限下において、圧縮ドメイン情報(動きベクトル、残差マップ、フレームタイプ)を活用して計算効率と画質のバランスを最適化し、既存の最先端手法よりも高速かつ高精度なオンライン動画超解像を実現する「CDA-VSR」を提案するものである。

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

この論文は、非微分可能な報酬信号(人間の評価やオブジェクト数など)を少数ステップの拡散モデルに統合するための新しい強化学習パラダイム「TDM-R1」を提案し、その有効性をテキスト描画や視覚品質、嗜好アライメントなど多岐にわたる実験で実証したものです。

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs