cs.CV 件の論文 | Gist.Science

You Don't Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models

本論文は、テキストから画像を生成する拡散モデルにおける学習データの記憶（メモリー化）を、プロンプトごとの推論時にクロスアテンションを動的に調整する「GUARD」という新フレームワークで抑制し、生成品質を損なうことなくプライバシーや著作権侵害のリスクを低減する手法を提案しています。

Kairan Zhao, Eleni Triantafillou, Peter Triantafillou2026-03-03🤖 cs.AI

TinyVLM: Zero-Shot Object Detection on Microcontrollers via Vision-Language Distillation with Matryoshka Embeddings

本論文は、Matryoshka 埋め込みによる蒸留や量子化などの技術を用いて、1MB 未満のメモリ制約を持つマイクロコントローラー上でゼロショット物体検出を可能にするフレームワーク「TinyVLM」を提案し、STM32H7 や MAX78000 などのエッジデバイスでのリアルタイム推論を実現したことを報告しています。

Bibin Wilson2026-03-03🤖 cs.AI

Latent Replay Detection: Memory-Efficient Continual Object Detection on Microcontrollers via Task-Adaptive Compression

本論文は、FiLM によるタスク適応圧縮と空間的多様性を考慮した代表例選択を組み合わせることで、マイクロコントローラの厳しいメモリ制約下でも新たな物体カテゴリを学習し続ける「Latent Replay Detection」という画期的な継続的物体検出フレームワークを提案し、実機検証によりその実用性を示したものである。

Bibin Wilson2026-03-03💻 cs

Towards Data-driven Nitrogen Estimation in Wheat Fields using Multispectral Images

本論文は、外部要因による課題を克服し、マルチスペクトル画像を用いた時空間変動を考慮したニューラルネットワーク「TerrAI」を提案することで、小麦畑におけるデータ駆動型の窒素推定と精密施肥を実現する手法を提示しています。

Andreas Tritsarolis, Tomaž Bokan, Matej Brumen + 2 more2026-03-03💻 cs

Steering Away from Memorization: Reachability-Constrained Reinforcement Learning for Text-to-Image Diffusion

この論文は、拡散モデルの学習データ記憶化を回避しつつ生成品質を維持するため、到達性分析に基づいて記述埋め込み空間で最小限の調整を行う推論時フレームワーク「RADS」を提案し、既存手法よりも多様性・品質・整合性のバランスを優位に改善することを示しています。

Sathwik Karnik, Juyeop Kim, Sanmi Koyejo + 2 more2026-03-03🤖 cs.AI

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

本論文は、画像編集の特性に合わせて編集難易度に応じた動的リソース配分、領域特定に基づく検証、および意図に合致した結果の早期停止を実現する「ADE-CoT」を提案し、既存のテスト時スケーリング手法よりも優れた性能と効率性を達成することを示しています。

Xiangyan Qu, Zhenlong Yuan, Jing Tang + 9 more2026-03-03⚡ eess

GrapHist: Graph Self-Supervised Learning for Histopathology

この論文は、組織を細胞グラフとして生物学的にモデル化し、マスクドオートエンコーダーとヘテロフィリックグラフニューラルネットワークを組み合わせた自己教師あり学習フレームワーク「GrapHist」を提案し、パラメータ数を大幅に削減しながらスライドから細胞レベルまでの多様なタスクで優れた性能を示すとともに、大規模なグラフベースの病理データセットを公開したことを報告しています。

Sevda Öğüt, Cédric Vincent-Cuaz, Natalia Dubljevic + 4 more2026-03-03🤖 cs.LG

Disentangled Hierarchical VAE for 3D Human-Human Interaction Generation

本論文は、CoTransformer による潜在空間の解離とコントラスト学習、および DDIM 拡散モデルを組み合わせた「DHVAE」を提案し、物理的妥当性と意味的整合性を兼ね備えた高品質な 3D 人間間相互作用生成を実現するものである。

Zichen Geng, Zeeshan Hayder, Bo Miao + 3 more2026-03-03🤖 cs.AI

M-Gaussian: An Magnetic Gaussian Framework for Efficient Multi-Stack MRI Reconstruction

本論文は、3D ガウススプラッティングを MRI 再構成に応用した「M-Gaussian」を提案し、物理的整合性を持つガウスプリミティブや多解像度学習などにより、高品質かつ高速な多スタック MRI 画像の等方性再構成を実現したものである。

Kangyuan Zheng, Xuan Cai, Jiangqi Wang + 6 more2026-03-03🤖 cs.AI

Mechanistically Guided LoRA Improves Paraphrase Consistency in Medical Vision-Language Models

本論文は、医療用ビジョン・ランゲージモデルの言い換えに対する一貫性を高めるため、メカニズムに基づくスパース・オートエンコーダの転知と、一貫性と正解率を両立させる LoRA 微調整を組み合わせる手法を提案し、翻転率の大幅な削減と精度の維持・向上を実証したものである。

Binesh Sadanandan, Vahid Behzadan2026-03-03💻 cs

Physics-Consistent Diffusion for Efficient Fluid Super-Resolution via Multiscale Residual Correction

本論文は、マルチスケール残差補正と物理的整合性を拡散プロセスに組み込むことで、流体の超解像において高精度・高忠実度を実現し、従来の拡散モデルよりも大幅に少ないサンプリングステップで効率的に計算を行う「ReMD」と呼ばれる新しいフレームワークを提案しています。

Zhihao Li, Shengwei Dong, Chuang Yi + 5 more2026-03-03🤖 cs.AI

Attention to Neural Plagiarism: Diffusion Models Can Plagiarize Your Copyrighted Images!

この論文は、追加学習や微調整を必要としない勾配ベースの「アンカーとシム」手法を用いることで、拡散モデルが透かしや著作権保護を回避し、著作権のある画像を複製できることを実証し、ニューラルモデルによるデータ盗用の深刻な脅威を浮き彫りにしています。

Zihang Zou, Boqing Gong, Liqiang Wang2026-03-03💻 cs

Multiview Progress Prediction of Robot Activities

この論文は、自己遮蔽による視覚の制約を克服し、ロボットが人間と安全に協働するために不可欠な動作進行予測の精度を向上させるため、モバイル ALOHA 上で多視点アーキテクチャを提案し、その有効性を実証したものである。

Elena Zoppellari, Federico Becattini, Marco Fiorucci + 1 more2026-03-03💻 cs

EfficientPosterGen: Semantic-aware Efficient Poster Generation via Token Compression and Accurate Violation Detection

本論文は、意味的関連性を考慮した情報抽出、テキストの画像化によるトークン圧縮、および補助モデル不要なレイアウト違反検出という 3 つの革新技術により、学術ポスター生成における情報密度、トークン効率、およびレイアウトの信頼性を大幅に向上させるエンドツーエンドのフレームワーク「EfficientPosterGen」を提案するものである。

Wenxin Tang, Jingyu Xiao, Yanpei Gong + 6 more2026-03-03🤖 cs.AI

BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation

この論文は、限られたラベル付きデータや臨床的な画像劣化に強い頑健な医療画像セグメンテーションを実現するため、視覚的特徴によるテキスト表現の反復的洗練と拡張一貫性目的を備えた双方向マルチモーダル融合フレームワーク「BiCLIP」を提案し、主要ベンチマークで最先端の手法を上回る性能を示したことを報告しています。

Saivan Talaei, Fatemeh Daneshfar, Abdulhady Abas Abdullah + 1 more2026-03-03💻 cs

FujiView: Multimodal Late-Fusion for Predicting Scenic Visibility

本論文は、富士山の webcam 画像と気象データを後期融合するマルチモーダル学習フレームワーク「FujiView」を提案し、観光計画や環境予測に有用な景観視界の高精度予測を実現したことを報告するものである。

Bryceton Bible, Shah Md Nehal Hasnaeen, Hairong Qi2026-03-03💻 cs

FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation

本論文は、マルチモーダル大規模言語モデルに基づく人間に合致した評価システムと群相対方策最適化（GRPO）を用いた強化学習フレームワーク「FlowPortrait」を提案し、音声駆動による肖像動画生成におけるリップシンクの精度、表現力、および自然さを大幅に向上させることを示しています。

Weiting Tan, Andy T. Liu, Ming Tu + 3 more2026-03-03🤖 cs.AI

DINOv3 Meets YOLO26 for Weed Detection in Vegetable Crops

本研究は、大規模な雑草・作物データセットの不足を解決するため、自己教師あり学習で微調整された DINOv3 を YOLO26 に統合し、野菜圃場における雑草検出の精度と汎化性能を大幅に向上させた新たなモデルを提案しています。

Boyang Deng, Yuzhen Lu2026-03-03🤖 cs.AI

SKINOPATHY AI: Smartphone-Based Ophthalmic Screening and Longitudinal Tracking Using Lightweight Computer Vision

本論文は、特殊な機器や専門家への依存を減らすため、一般的なスマートフォンと軽量なコンピュータビジョン技術を用いて、赤みの定量や瞬き率の推定など 5 つのモジュールによる説明可能な眼科スクリーニングおよび経時的追跡を実現する「SKINOPATHY AI」というシステムを提案し、そのアーキテクチャ、アルゴリズム、臨床的意義を詳述したものである。

S. Kalaycioglu, C. Hong, M. Zhu + 1 more2026-03-03🤖 cs.LG

GazeXPErT: An Expert Eye-tracking Dataset for Interpretable and Explainable AI in Oncologic FDG-PET/CT Scans

本論文は、がん診断における FDG-PET/CT 画像の読影パターンを捉えた大規模な眼球追跡データセット「GazeXPErT」を提示し、専門家の注視情報を統合することで AI による腫瘍セグメンテーションや病変局所化の精度向上、および説明可能な医療 AI の実現に貢献できることを示しています。

Joy T Wu, Daniel Beckmann, Sarah Miller + 15 more2026-03-03⚡ eess

← 前へ次へ →