Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

この論文は、拡散モデルを用いて生成した対照的画像から視覚誘発性ハルシネーションの低ランク部分空間を特定し、推論時に中間隠れ状態をその部分空間から射影することで、学習不要で大規模視覚言語モデルのハルシネーションを抑制する「CIPHER」という手法を提案しています。

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

本論文は、壁や道路など 9 種類の表面にまたがる約 78,000 枚の画像を統合・再注釈した大規模な構造物損傷検出用データセット「StructDamage」を提案し、多様な深層学習モデルによる高い分類精度を実証することで、構造物の損傷検出における汎用性と再現性の向上に貢献するものです。

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

本論文は、質量分析イメージング(MSI)のデータ処理において、既存手法の課題を克服し、空間的・スペクトル的情報を活用した自己教師あり学習ニューラルネットワークと専門家の注釈に基づく評価手法を提案することで、より一貫性のあるピーク抽出と評価を実現するものである。

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

既存のベンチマークが抱える合成データ依存や評価指標の限界を克服するため、4 つの実践的シナリオと 9 言語を網羅し、翻訳品質からクロスモーダルな整合性まで多面的に評価できる新しい「IMTBench」を提案し、現状のモデル間には大きな性能差があることを示した。

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Naïve Exposure of Generative AI Capabilities Undermines Deepfake Detection

この論文は、ユーザーが商用生成 AI のチャットボットに対して安全なプロンプトで画像の精緻化を依頼するだけで、現代のディープフェイク検出器を回避しつつ高品質な偽造画像を生成できてしまうという、検出フレームワークの脅威モデルと実世界の AI 能力の間の構造的な不一致を明らかにしています。

Sunpill Kim, Chanwoo Hwang, Minsu Kim, Jae Hong Seo2026-03-12🤖 cs.AI

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

この論文は、UHD 画像のデブラリングにおいて、粗から細への段階的なアップサンプリングと残差生成を流形マッチングでモデル化する自己回帰フロー手法を提案し、条件数正則化による ill-conditioned 制約の抑制を通じて、計算効率と高解像度での細部復元を両立させることを目的としています。

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

この論文は、複雑な視覚的特徴と抽象的な臨床テキストの間のモダリティギャップおよび意味の混在という課題を解決するため、視覚的ガイダンスを用いたテキストの細粒度意味分離とハイブリッド特徴融合モジュールを拡散トランスフォーマに統合し、医療画像生成の制御性と品質を大幅に向上させるフレームワークを提案しています。

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

本論文は、限られたスライド画像データにおけるがん予後予測の課題に対し、タスクベクトルのミックスアップとハイパーネットワークを用いて他種がんの一般化知識を効率的に統合する「STEPH」という新しい手法を提案し、従来の学習法や既存の転移学習手法を上回る性能と計算効率を実現したことを報告しています。

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime

DSFlash は、リソース制約のあるエッジデバイスでも実用的なリアルタイム処理(RTX 3090 で 56fps)と低コストな学習環境(古型 GPU で 24 時間未満)を実現しつつ、既存の最先端手法と同等の性能を維持しながら包括的なパンオプティックなシーングラフを生成する低遅延モデルです。

Julian Lorenz, Vladyslav Kovganko, Elias Kohout, Mrunmai Phatak, Daniel Kienzle, Rainer Lienhart2026-03-12💻 cs

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

この論文は、骨やインプラントのセグメンテーションタスクにおいて、11 種類のプロンプタブル基盤モデルを評価した結果、モデルやプロンプト戦略によって性能が大きく異なり、特に人間のプロンプトを使用すると性能が低下し、モデルがプロンプトのばらつきに敏感であることを示し、人間主導の環境での最適なモデル選出の難しさを浮き彫りにしました。

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

この論文は、事前学習済みマルチモーダルモデルと軽量アダプターを活用し、大規模な訓練データなしで炭素繊維強化プラスチックの欠陥をゼロショットで検出・可視化する新しい言語誘導型フレームワークを提案し、従来の手法を大幅に上回る性能を実証したものである。

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess

PET-F2I: A Comprehensive Benchmark and Parameter-Efficient Fine-Tuning of LLMs for PET/CT Report Impression Generation

PET/CT 画像診断レポートの要約生成を目的とした大規模ベンチマーク「PET-F2I-41K」を構築し、臨床的に妥当な評価指標を導入してパラメータ効率型ファインチューニング手法を適用した結果、既存モデルを凌駕する高精度な生成モデル「PET-F2I-7B」を開発したことを報告する論文です。

Yuchen Liu, Wenbo Zhang, Liling Peng, Yichi Zhang, Yu Fu, Xin Guo, Chao Qu, Yuan Qi, Le Xue2026-03-12💻 cs

UniStitch: Unifying Semantic and Geometric Features for Image Stitching

この論文は、手動設計された幾何学的特徴とニューラルネットワークに基づく意味的特徴を、それぞれを2次元マップに変換するニューラルポイントトランスフォーマーと、信頼性に応じて動的に重み付けする適応型混合専門家モジュールによって統合する「UniStitch」という画期的な画像ステッチングフレームワークを提案し、既存の最先端手法を大幅に凌駕する性能を実現したことを示しています。

Yuan Mei, Lang Nie, Kang Liao, Yunqiu Xu, Chunyu Lin, Bin Xiao2026-03-12💻 cs

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

本論文は、没入型コンピュータグラフィックス(CG)の品質評価における課題を解決するため、6 つの知覚次元に基づく大規模データセットと質問応答ベンチマークを構築し、視覚的に類似した画像の説明を検索して生成に活用する「R4-CGQA」という検索拡張生成フレームワークを提案し、既存の視覚言語モデルの CG 品質評価性能を大幅に向上させることを示しています。

Zhuangzi Li, Jian Jin, Shilv Cai, Weisi Lin2026-03-12💻 cs

Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution

この論文は、既存の手法が抱えるモデル依存性の限界を克服するため、AI 生成画像の帰属を分類問題ではなくインスタンス検索問題として定式化し、低ビット平面に基づく指紋生成と半教師あり学習を組み合わせたモデル非依存のフレームワーク「LIDA」を提案し、ゼロショットおよび少ショット設定において最先端の性能を達成することを示しています。

Hongsong Wang, Renxi Cheng, Chaolei Han, Jie Gui2026-03-12💻 cs

Need for Speed: Zero-Shot Depth Completion with Single-Step Diffusion

本論文では、拡散モデルの推論時の最適化コストを排除し、学習コストを最小化しながらリアルタイム制約下で効率的かつ頑健な深度補完を実現する、単一ステップの遅延融合フレームワーク「Marigold-SSD」を提案し、既存手法との効率性ギャップを大幅に縮小するとともに、ゼロショット性能とクロスドメイン汎化能力を実証しています。

Jakub Gregorek, Paraskevas Pegios, Nando Metzger, Konrad Schindler, Theodora Kontogianni, Lazaros Nalpantidis2026-03-12💻 cs

Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection

この論文は、実像と合成画像の潜在表現における層間の一貫性の違いに着目し、新しい「潜在遷移不一致(LTD)」手法を提案することで、既存の手法よりも優れた汎化性能と検出精度を実現したことを報告しています。

Yawen Yang, Feng Li, Shuqi Kong, Yunfeng Diao, Xinjian Gao, Zenglin Shi, Meng Wang2026-03-12💻 cs

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

本論文では、リアルタイム推論を可能にする軽量な U-Net 型生成器と、実世界データのパッチを組み合わせたハイブリッド学習戦略を採用し、合成データの写実性向上とセマンティックな整合性を両立させつつ、既存の画像間変換手法を上回る推論速度と画質を実現する「HyPER-GAN」を提案しています。

Stefanos Pasios, Nikos Nikolaidis2026-03-12💻 cs

MUNIChus: Multilingual News Image Captioning Benchmark

この論文は、英語以外の言語におけるニュース画像キャプション生成のデータ不足を解消するため、シンハラ語やウルドゥー語など9言語を含む初の多言語ベンチマーク「MUNIChus」を構築し、既存の最先端モデルを評価して多言語ニュース画像キャプション生成の課題と可能性を明らかにしたものです。

Yuji Chen, Alistair Plum, Hansi Hettiarachchi, Diptesh Kanojia, Saroj Basnet, Marcos Zampieri, Tharindu Ranasinghe2026-03-12💬 cs.CL