cs.CV 件の論文 | Gist.Science

World2Act: Latent Action Post-Training via Skill-Compositional World Models

本論文は、ピクセル依存を減らしタスク長に柔軟に対応するスキル合成型世界モデルを導入することで、視覚言語動作（VLA）ポリシーの汎化性能を大幅に向上させるポストトレーニングフレームワーク「World2Act」を提案し、実世界での成功率向上を実証したものである。

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory

本論文は、基盤モデルと軽量モデルを非同期に協調させることでエッジデバイスでのリアルタイム推論を可能にし、パラメータ数を大幅に削減しながら高精度な単眼深度推定を実現する「AsyncMDE」を提案しています。

Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu2026-03-12💻 cs

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

この論文は、特定のテキストプロンプトで指定できない個人や文化的に不適切な生成物など「プロンプト不可」なインスタンスを、画像編集や勾配手術などの技術を用いて選択的に忘却し、モデルの残りの機能を維持する新しい機械学習手法を提案しています。

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun2026-03-12🤖 cs.LG

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

本論文は、FAST による自動キーフレーム抽出と条件付きフローマッチングに基づく SignSparK を提案し、4 言語にまたがる大規模な多言語手話生成において、自然で流暢かつ高忠実度なアバター生成を実現する新たな最先端を確立するものである。

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

本論文は、構造光を用いた色ばらつきのある物体の高精度 3 次元再構成を可能にするため、追加のハードウェアや複数回の露光を必要とせず、光学系の横色収差を補正しポアソン・ガウスノイズモデルに基づく最小分散推定で RGB 各チャネルの位相データを適応的に融合する「LCAMV」という手法を提案し、従来法と比較して深度誤差を最大 43.6% 低減する効果を実証したものである。

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

この論文は、地理的推論を静的な認識からインタラクティブな探索へと転換する初のオープンアクセスグローバル位置特定ベンチマーク「WanderBench」と、推論を身体動作と連動させて不確実性を能動的に低減するフレームワーク「GeoAoT」を提案し、大規模マルチモーダルモデルの位置特定能力を飛躍的に向上させたことを報告しています。

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min2026-03-12💻 cs

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

本論文は、XR 環境における複雑な音源を分離し、音声と視覚の手がかりを統合したリアルタイムシステム「MoXaRt」を提案し、その有効性が聴解力の向上と認知的負荷の軽減を通じて実証されたことを示しています。

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle2026-03-12💻 cs

UniPINN: A Unified PINN Framework for Multi-task Learning of Diverse Navier-Stokes Equations

本論文は、単一フロー設定に限定されがちな既存の物理情報ニューラルネットワーク（PINN）の課題を克服し、共有・専門化アーキテクチャ、クロスフロー注意機構、動的重み割り当て戦略を統合することで、多様なナビエ・ストークス方程式のマルチタスク学習において高精度かつ安定した予測を実現する統一フレームワーク「UniPINN」を提案するものです。

Dengdi Sun, Jie Chen, Xiao Wang, Jin Tang2026-03-12🤖 cs.AI

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

この論文は、拡散モデルを用いて生成した対照的画像から視覚誘発性ハルシネーションの低ランク部分空間を特定し、推論時に中間隠れ状態をその部分空間から射影することで、学習不要で大規模視覚言語モデルのハルシネーションを抑制する「CIPHER」という手法を提案しています。

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

本論文は、壁や道路など 9 種類の表面にまたがる約 78,000 枚の画像を統合・再注釈した大規模な構造物損傷検出用データセット「StructDamage」を提案し、多様な深層学習モデルによる高い分類精度を実証することで、構造物の損傷検出における汎用性と再現性の向上に貢献するものです。

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

本論文は、質量分析イメージング（MSI）のデータ処理において、既存手法の課題を克服し、空間的・スペクトル的情報を活用した自己教師あり学習ニューラルネットワークと専門家の注釈に基づく評価手法を提案することで、より一貫性のあるピーク抽出と評価を実現するものである。

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

既存のベンチマークが抱える合成データ依存や評価指標の限界を克服するため、4 つの実践的シナリオと 9 言語を網羅し、翻訳品質からクロスモーダルな整合性まで多面的に評価できる新しい「IMTBench」を提案し、現状のモデル間には大きな性能差があることを示した。

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Naïve Exposure of Generative AI Capabilities Undermines Deepfake Detection

この論文は、ユーザーが商用生成 AI のチャットボットに対して安全なプロンプトで画像の精緻化を依頼するだけで、現代のディープフェイク検出器を回避しつつ高品質な偽造画像を生成できてしまうという、検出フレームワークの脅威モデルと実世界の AI 能力の間の構造的な不一致を明らかにしています。

Sunpill Kim, Chanwoo Hwang, Minsu Kim, Jae Hong Seo2026-03-12🤖 cs.AI

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

この論文は、UHD 画像のデブラリングにおいて、粗から細への段階的なアップサンプリングと残差生成を流形マッチングでモデル化する自己回帰フロー手法を提案し、条件数正則化による ill-conditioned 制約の抑制を通じて、計算効率と高解像度での細部復元を両立させることを目的としています。

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

この論文は、複雑な視覚的特徴と抽象的な臨床テキストの間のモダリティギャップおよび意味の混在という課題を解決するため、視覚的ガイダンスを用いたテキストの細粒度意味分離とハイブリッド特徴融合モジュールを拡散トランスフォーマに統合し、医療画像生成の制御性と品質を大幅に向上させるフレームワークを提案しています。

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

本論文は、限られたスライド画像データにおけるがん予後予測の課題に対し、タスクベクトルのミックスアップとハイパーネットワークを用いて他種がんの一般化知識を効率的に統合する「STEPH」という新しい手法を提案し、従来の学習法や既存の転移学習手法を上回る性能と計算効率を実現したことを報告しています。

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime

DSFlash は、リソース制約のあるエッジデバイスでも実用的なリアルタイム処理（RTX 3090 で 56fps）と低コストな学習環境（古型 GPU で 24 時間未満）を実現しつつ、既存の最先端手法と同等の性能を維持しながら包括的なパンオプティックなシーングラフを生成する低遅延モデルです。

Julian Lorenz, Vladyslav Kovganko, Elias Kohout, Mrunmai Phatak, Daniel Kienzle, Rainer Lienhart2026-03-12💻 cs

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

この論文は、骨やインプラントのセグメンテーションタスクにおいて、11 種類のプロンプタブル基盤モデルを評価した結果、モデルやプロンプト戦略によって性能が大きく異なり、特に人間のプロンプトを使用すると性能が低下し、モデルがプロンプトのばらつきに敏感であることを示し、人間主導の環境での最適なモデル選出の難しさを浮き彫りにしました。

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

この論文は、事前学習済みマルチモーダルモデルと軽量アダプターを活用し、大規模な訓練データなしで炭素繊維強化プラスチックの欠陥をゼロショットで検出・可視化する新しい言語誘導型フレームワークを提案し、従来の手法を大幅に上回る性能を実証したものである。

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

本論文は、画像と動画の両方に対してスケーラブルな表現を提供する初の階層的逐次 2D ガウススプラッティングフレームワーク「P-GSVC」を提案し、層間互換性を確保する同時学習戦略により、逐次学習と比較して画質を大幅に向上させることを示しています。

Longan Wang, Yuang Shi, Wei Tsang Ooi2026-03-12💻 cs

← 前へ次へ →