Towards High-resolution and Disentangled Reference-based Sketch Colorization

本論文は、トレーニングデータと推論データの分布シフトを直接最小化し、セマンティック整合・非整合の双ブランチ構造と Gram 正則化、さらに SDXL 向けのアニメ固有タグネットワークを組み合わせることで、高解像度かつ制御性の高い参照ベースのスケッチ彩色を実現する新たなフレームワークを提案しています。

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

この技術報告書は、パキスタン製医療器具の製造欠陥を特定・修正し、患者の安全を確保するために、YOLOv8 や ResNet-152 などの深層学習アーキテクチャを活用した 4,414 枚の画像データセットを用いた自動光学検査(AOI)システムの開発と産業への応用を提案するものである。

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

本論文は、非同期かつ不均等な間隔で観測される時系列データ(ISTS)の予測精度を向上させるため、視覚・言語・時系列の各モダリティを統合し、大規模言語モデルを活用して文脈的意味や微細な時間的パターンを学習するマルチモーダルフレームワーク「MM-ISTS」を提案するものである。

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360^\circ Depth Estimation via Self-Modulation

本論文は、事前学習された透視図法のパターンを維持しつつ、ERP と CP の 2 種類の投影から得られるモジュレーション信号と自己条件付き AdaLN-Zero 機構を導入することで、全景画像の深度推定において少量データで高い性能を実現する「RePer-360」というフレームワークを提案しています。

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

本論文は、視覚的バイアスにより言語指示を無視する「言語的盲目性」という VLA モデルの欠陥を特定し、再学習なしで推論時に注意機構を再調整する IGAR 手法を提案することで、矛盾する指示下でのロボットの誤作動を効果的に防止することを示しています。

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

この論文は、CNN の構造的効率と KAN の非線形表現力を統合した「RepKAN」と呼ばれる新しいアーキテクチャを提案し、EuroSAT や NWPU-RESISC45 などのデータセットを用いた実験で、最先端モデルを上回る性能を維持しつつ、リモートセンシング画像分類において物理的に解釈可能な推論を実現したことを示しています。

Minjong Cheon2026-03-09🤖 cs.AI

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

本論文は、大規模言語モデルによる意味論的推論と拡散トランスフォーマーによる文脈内学習を統合し、個別の微調整を不要とする大規模合成データセット「EffectData」を活用することで、高品質かつ汎用的なカスタマイズ型視覚効果生成を実現するフレームワーク「EffectMaker」を提案するものです。

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

本論文は、動画から連続的な物体ごとの物理パラメータを推定する新たな課題「MOSIV」を提案し、幾何学的目標に基づく微分可能なシミュレータと新しい合成ベンチマークを用いて、既存手法を上回る精度とシミュレーション忠実度を実現するフレームワークを開発したことを報告しています。

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

本論文は、複数の視点にまたがる空間推論において、視点間の関係性を明示的に推論する「空間的思考連鎖」を中間ワークスペースとして構築し、これを基に質問に応答する二段階フレームワーク「ViewFusion」を提案し、MMSI-Bench において既存モデルを大幅に上回る精度を達成したことを報告しています。

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

この論文は、中間的な画像生成に依存せずテキストベースの構造化視覚表現を用いて多様な画像生成モデルと統合可能な新しいフレームワーク「StruVis」を提案し、推論に基づくテキストから画像への生成タスクの性能を大幅に向上させることを示しています。

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

この論文は、部分的な遮蔽に起因する位置コストの混同を解決し、遮蔽状態を分析する「Occlusion-Aware Module」やその情報を活用する「Occlusion-Aware Offset」および「Bias-Aware Momentum」を含む、トレーニング不要のプラグ&プレイ型マルチオブジェクト追跡フレームワーク「OA-SORT」を提案し、複数のデータセットで追跡性能の向上を実証したものです。

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

この論文は、生体視覚に着想を得た高次元ハイパーカラムの計算コスト課題を解決するため、VGG16 ベースのハイパーカラムに層化サンプリングを適用し、脳腫瘍データセットでの実験により、特に少量データ(N≤20)の条件下で単純なロジスティック回帰が過学習しやすい標準的な UNet よりも統計的に有意に優れたセグメンテーション性能を示すことを明らかにしています。

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

この論文は、フォントスタイルと使用ケースを明示的に記述した大規模な注釈付きデータセット「FontUse」を構築し、既存の画像生成モデルをアーキテクチャ変更なしで微調整することで、提示されたテキストの視覚的スタイルと用途を高精度に反映させるデータ中心のアプローチを提案しています。

Xia Xin, Yuki Endo, Yoshihiro Kanamori2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

本論文は、統一マルチモーダルモデルが自らの理解能力を生成評価に活用する「GvU」というトークンレベルの内在的報酬メカニズムと自己教師あり強化学習フレームワークを提案し、理解と生成の能力格差を解消して両者の性能を相互に向上させる手法を提示しています。

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

本論文は、事前学習済み動画生成モデルに、参照オブジェクト情報を時間的に均等かつ空間的に選択的に注入する軽量拡張手法「GenHOI」を提案し、これにより野外の複雑なシーンにおいても物体の同一性を維持しつつ物理的に妥当な手と物体の相互作用を生成する能力を大幅に向上させることを示しています。

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

この論文は、自律走行 VLA モデルにおける探索の欠如という課題を解決するため、実行可能軌道の拡張と多様性を意識したサンプリング・報酬設計を組み合わせたフレームワーク「Curious-VLA」を提案し、Navsim ベンチマークで最先端の性能を達成したことを報告しています。

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

本論文は、自動運転における軽量ビジョン・ランゲージモデルの失敗要因を解明するため、中間活性化を分析し、物体の存在は線形的に符号化されるが向きなどの空間概念は暗黙的であり、さらに距離の増加が概念の線形分離性を低下させることで、知覚的失敗と認知的失敗という 2 つの失敗モードを特定したことを示しています。

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

この論文は、教師-学生蒸留アプローチ、アイデンティティ固定、時間的正則化、および視覚音素に基づく音声条件付けを統合した「TempoSyncDiff」を提案し、低遅延かつ時間的に一貫した高品質な音声駆動トークングヘッド生成を実現する軽量潜在拡散フレームワークを提示しています。

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

本論文は、ロボティクスや自動運転で収集された既存の全方向 RGB-LiDAR ログを、歪み補正や効率的なサンプリング、マルチモーダル登録などの処理を経て 3D ガウススプラッティング(3DGS)の初期化資産へと変換し、高品質なデジタルツイン構築を可能にするパイプラインを提案するものです。

Semin Bae, Hansol Lim, Jongseong Brad Choi2026-03-09💻 cs