LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

この論文は、マルチモーダル拡散トランスフォーマーを用いて、テキストプロンプトの代わりに文字画像を入力し、注意メカニズムを制御することで追加学習なしに多言語ロゴを生成・様式化できる「LogoDiffuser」を提案し、その有効性を示しています。

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

本論文は、360 度室内環境における物体中心かつ視点に依存した既存の限界を克服し、歪み感知スペクトル変調やオムニ球状高密度化ヘッドを備えた「PanoAffordanceNet」フレームワークと、初の高品質パノラマアフォーダンス接地データセット「360-AGD」を提案することで、エンボディドエージェントのための包括的な環境知覚を実現するものです。

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

この論文は、大規模視覚言語モデルの内部アテンション機構から対象概念を主に表す視覚トークンを抽出してメモリとして活用する効率的な手法「Ego」を提案し、追加学習や外部モジュールなしで単一・複数概念および動画の個人化において最先端の性能を達成することを示しています。

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

本論文は、既存のバックドア防御がトリガーの除去に依存しているが、実際には訓練トリガーとは異なる「代替トリガー」が同じバックドアを確実に活性化し、防御を回避できることを理論的・実証的に示し、入力空間のトリガー除去ではなく表現空間におけるバックドア方向そのものを標的とした防御の必要性を提唱している。

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

この論文は、既存の説明可能 AI(XAI)手法が見過ごしがちな「概念の不在」によるニューロン活性化という因果関係が重要であることを示し、アトリビューションや特徴可視化手法の拡張を通じてこれを検出・説明する新たなアプローチを提案しています。

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

本論文は、テスト時にエゴセントリック視点からエクセントリック視点への行動予測を可能にする新たなタスクを提案し、マルチラベルプロトタイプ成長モジュールとテキスト・視覚の二重の手がかり整合性を活用した新しいネットワーク「DCPGN」により、既存の手法を大幅に上回る性能を実現したことを報告しています。

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

この論文は、粗粒度のタスクから脱却し、領域を考慮した音源のセグメンテーションと詳細な記述を同時に実現する新たな細粒度タスク「RA-SSU」を定義し、対応する大規模データセットと SOTA 性能を達成するモデル「SSUFormer」を提案しています。

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

本論文は、2 枚の画像からの大角度視点変化に対する新規視点合成の課題に対し、投影された点雲の信頼度に基づいて拡散モデルを制御し、見えない領域の補完とカメラ軌跡の追従を両立させる「ConfCtrl」というフレームワークを提案するものです。

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

本論文は、診断に有用な脳状態の時間的変化と空間的パターンを特定し、解釈可能な動的脳ネットワークモデルを構築するために、適応的な位相分割、アテンション機構、およびスパースなグラフ構造生成を組み合わせた時空間対照学習フレームワーク「BrainSTR」を提案し、自閉症スペクトラム障害、双極性障害、うつ病のデータを用いた実験でその有効性と既存の神経画像所見との整合性を検証したものである。

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

この論文は、大規模視覚言語モデル(VLM)の空間推論能力を活用し、点群を鳥瞰図とシーングラフに変換して自然言語からの位置特定精度を向上させる「VLM-Loc」フレームワークと、その評価用ベンチマーク「CityLoc」を提案するものです。

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

本論文は、複数の具象化エージェントから同時に収集された長時間の第一人称視点動画を理解する新たな課題を定義し、その評価のためのベンチマーク「MA-EgoQA」と、エージェント間の共有メモリと動的検索を活用するベースラインモデル「EgoMAS」を提案しています。

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

CycleULM は、ラベル付きデータや高忠実度シミュレータを必要とせず、物理モデルを模倣した翻訳学習を通じて超音波局在化顕微鏡(ULM)の解像度・精度・処理速度を大幅に向上させ、臨床応用への実用的な道筋を示す初の統一型ラベルフリー深層学習フレームワークです。

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

本論文は、理解・推論・生成・編集を統合した軽量な 40 億パラメータのマルチモーダルモデル「InternVL-U」を提案し、大規模モデルを凌駕する性能と効率性のバランスを達成したことを報告しています。

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

この論文は、手首の関節座標と物体のバウンディングボックスというスパースな運動ガイダンス、物体ストレスアテンション機構、そしてマルチタスク補助学習戦略を組み合わせることで、物理的に整合性が高く制御可能な人間 - 物体相互作用(HOI)ビデオ生成を実現する「DISPLAY」というフレームワークを提案しています。

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

本論文は、スポーツの空間的知能を評価する初の大規模データセット「CourtSI」とベンチマーク「CourtSI-Bench」を提案し、既存の視覚言語モデルの空間認識能力の限界を明らかにするとともに、CourtSI によるファインチューニングがモデルの精度向上と汎化性能の改善に寄与することを示しています。

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

本論文は、大規模言語モデルの埋め込みと視覚誘導知識アダプタ、および硬い負例合成メカニズムを活用して、生成モデルに比べて推論遅延を約 100 倍削減しつつ、オープンドメイン視覚実体認識タスクで高い性能を達成する効率的な対照学習ベースライン「WikiCLIP」を提案するものです。

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

本論文は、点群再構成や生成における標準的な損失関数であるチャマファ距離の最適化が、局所的な正則化では解決できない勾配構造上の欠陥により「最適化しない場合よりも悪い結果」をもたらす「崩壊」を引き起こすことを示し、これを抑制するには局所領域を超えた非局所的な結合(グローバルな結合)が不可欠であることを明らかにした。

Chang-Yong Song, David Hyde2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

この論文は、関節角度に基づく擬似画像表現とトークン単位の遅延相互作用(MaxSim)を組み合わせることで、既存の手法が抱える細粒度対応の欠如や解釈性の低さを克服し、テキストと 3 次元人間の動きの間の高精度かつ解釈可能な検索を実現する手法を提案しています。

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

この論文は、利用可能な画像データと臨床メタデータを動的に統合し、GPT-4o による意味的ガイダンスを取り入れた適応型臨床意識潜在拡散モデル「ACADiff」を提案し、アルツハイマー病診断における多モダリティ脳画像の欠損補完と高品質な合成を実現したことを述べています。

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI