cs.CV 件の論文 | Gist.Science

Automated Quality Check of Sensor Data Annotations

この論文では、自動運転鉄道システムの安全性に不可欠な多センサーデータセットの品質を向上させるため、9 種類の一般的なアノテーション誤りを検出するオープンソースツールを開発し、その精度を検証したことを報告しています。

Niklas Freund, Zekiye Ilknur-Öz, Tobias Klockau + 3 more2026-03-03💻 cs

Multimodal Modular Chain of Thoughts in Energy Performance Certificate Assessment

本論文は、限られた視覚情報からエネルギー性能証明書（EPC）を自動推定するための低コストなマルチモーダルモジュラーチェーン・オブ・思考（MMCoT）フレームワークを提案し、英国の住宅データを用いた実験で従来の指示のみによるプロンプト手法よりも統計的に有意な精度向上と順序構造の捕捉を実現したことを示しています。

Zhen Peng, Peter J. Bentley2026-03-03🤖 cs.AI

VoxelDiffusionCut: Non-destructive Internal-part Extraction via Iterative Cutting and Structure Estimation

本論文は、3D 形状の多様性と不確実性に対処するため拡散モデルを用いて切断面から内部構造を確率的に推定し、対象部品の非破壊抽出を可能にする「VoxelDiffusionCut」という手法を提案しています。

Takumi Hachimine, Yuhwan Kwon, Cheng-Yu Kuo + 2 more2026-03-03💻 cs

Efficient Image Super-Resolution with Multi-Scale Spatial Adaptive Attention Networks

本論文は、高品質な画像超解像と低モデル複雑性の両立を可能にするため、多スケール空間適応アテンションモジュールなどを含む軽量ネットワーク「MSAAN」を提案し、標準ベンチマークにおいて最先端の手法と同等以上の性能を低い計算コストで達成することを示しています。

Sushi Rao, Jingwei Li2026-03-03💻 cs

BiSe-Unet: A Lightweight Dual-path U-Net with Attention-refined Context for Real-time Medical Image Segmentation

本論文は、リソース制約のあるエッジデバイス上でのリアルタイム医療画像セグメンテーションを実現するため、注意機構で洗練された文脈経路と浅い空間経路を統合した軽量な双経路 U-Net「BiSe-Unet」を提案し、Kvasir-Seg データセットにおいて 30 FPS 以上の推論速度と高精度な分割性能を両立させることを示しています。

M Iffat Hossain, Laura Brattain2026-03-03💻 cs

NovaLAD: A Fast, CPU-Optimized Document Extraction Pipeline for Generative AI and Data Intelligence

NovaLAD は、2 つの YOLO モデルとルールベースのグループ化、およびオプションのビジョン言語モデルを統合し、GPU 不要で CPU 上で高速かつ高精度に動作するドキュメント抽出パイプラインとして、DP-Bench ベンチマークで既存の商用・オープンソース解析器を上回る性能を達成したことを提案しています。

Aman Ulla2026-03-03🤖 cs.AI

CT-Flow: Orchestrating CT Interpretation Workflow with Model Context Protocol Servers

本論文は、臨床的な CT 画像解釈の動的なワークフローを模倣し、モデルコンテキストプロトコル（MCP）を活用してツール駆動型の自律的推論を実現する新しいエージェントフレームワーク「CT-Flow」を提案し、その性能を大規模ベンチマーク「CT-FlowBench」で実証したものである。

Yannian Gu, Xizhuo Zhang, Linjie Mu + 4 more2026-03-03🤖 cs.AI

QuickGrasp: Responsive Video-Language Querying Service via Accelerated Tokenization and Edge-Augmented Inference

本論文は、大規模なビデオ言語モデルの高精度と小規模モデルの低遅延を両立させるため、ローカルファーストのアーキテクチャにエッジ拡張を組み合わせ、視覚表現の共有とトークン化の高速化を実現した「QuickGrasp」と呼ばれる応答性の高いビデオ言語クエリサービスシステムを提案するものである。

Miao Zhang, Ruixiao Zhang, Jianxin Shi + 3 more2026-03-03⚡ eess

Segmenting Low-Contrast XCTs of Concretes: An Unsupervised Approach

この論文は、コンクリートのX線CT画像におけるアグリゲートとモルタルの低コントラストという課題に対し、スーパーピクセルアルゴリズムを活用した自己注釈ベースの教師なし手法でCNNを訓練し、セマンティックセグメンテーションを可能にするアプローチを提案・検証したものである。

Kaustav Das, Gaston Rauchs, Jan Sykora + 1 more2026-03-03💻 cs

Predicting Local Climate Zones using Urban Morphometrics and Satellite Imagery

本研究は、都市形態計測と衛星画像を用いた局所気候帯（LCZ）の予測を評価した結果、形態計測単独ではサイト依存性が強く、画像との融合による精度向上も限定的かつ一貫性を欠くため、形態学的研究における LCZ フレームワークの使用には注意が必要であると結論付けています。

Hugo Majer, Martin Fleischmann2026-03-03💻 cs

You Don't Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models

本論文は、テキストから画像を生成する拡散モデルにおける学習データの記憶（メモリー化）を、プロンプトごとの推論時にクロスアテンションを動的に調整する「GUARD」という新フレームワークで抑制し、生成品質を損なうことなくプライバシーや著作権侵害のリスクを低減する手法を提案しています。

Kairan Zhao, Eleni Triantafillou, Peter Triantafillou2026-03-03🤖 cs.AI

TinyVLM: Zero-Shot Object Detection on Microcontrollers via Vision-Language Distillation with Matryoshka Embeddings

本論文は、Matryoshka 埋め込みによる蒸留や量子化などの技術を用いて、1MB 未満のメモリ制約を持つマイクロコントローラー上でゼロショット物体検出を可能にするフレームワーク「TinyVLM」を提案し、STM32H7 や MAX78000 などのエッジデバイスでのリアルタイム推論を実現したことを報告しています。

Bibin Wilson2026-03-03🤖 cs.AI

Latent Replay Detection: Memory-Efficient Continual Object Detection on Microcontrollers via Task-Adaptive Compression

本論文は、FiLM によるタスク適応圧縮と空間的多様性を考慮した代表例選択を組み合わせることで、マイクロコントローラの厳しいメモリ制約下でも新たな物体カテゴリを学習し続ける「Latent Replay Detection」という画期的な継続的物体検出フレームワークを提案し、実機検証によりその実用性を示したものである。

Bibin Wilson2026-03-03💻 cs

Towards Data-driven Nitrogen Estimation in Wheat Fields using Multispectral Images

本論文は、外部要因による課題を克服し、マルチスペクトル画像を用いた時空間変動を考慮したニューラルネットワーク「TerrAI」を提案することで、小麦畑におけるデータ駆動型の窒素推定と精密施肥を実現する手法を提示しています。

Andreas Tritsarolis, Tomaž Bokan, Matej Brumen + 2 more2026-03-03💻 cs

Steering Away from Memorization: Reachability-Constrained Reinforcement Learning for Text-to-Image Diffusion

この論文は、拡散モデルの学習データ記憶化を回避しつつ生成品質を維持するため、到達性分析に基づいて記述埋め込み空間で最小限の調整を行う推論時フレームワーク「RADS」を提案し、既存手法よりも多様性・品質・整合性のバランスを優位に改善することを示しています。

Sathwik Karnik, Juyeop Kim, Sanmi Koyejo + 2 more2026-03-03🤖 cs.AI

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

本論文は、画像編集の特性に合わせて編集難易度に応じた動的リソース配分、領域特定に基づく検証、および意図に合致した結果の早期停止を実現する「ADE-CoT」を提案し、既存のテスト時スケーリング手法よりも優れた性能と効率性を達成することを示しています。

Xiangyan Qu, Zhenlong Yuan, Jing Tang + 9 more2026-03-03⚡ eess

GrapHist: Graph Self-Supervised Learning for Histopathology

この論文は、組織を細胞グラフとして生物学的にモデル化し、マスクドオートエンコーダーとヘテロフィリックグラフニューラルネットワークを組み合わせた自己教師あり学習フレームワーク「GrapHist」を提案し、パラメータ数を大幅に削減しながらスライドから細胞レベルまでの多様なタスクで優れた性能を示すとともに、大規模なグラフベースの病理データセットを公開したことを報告しています。

Sevda Öğüt, Cédric Vincent-Cuaz, Natalia Dubljevic + 4 more2026-03-03🤖 cs.LG

Disentangled Hierarchical VAE for 3D Human-Human Interaction Generation

本論文は、CoTransformer による潜在空間の解離とコントラスト学習、および DDIM 拡散モデルを組み合わせた「DHVAE」を提案し、物理的妥当性と意味的整合性を兼ね備えた高品質な 3D 人間間相互作用生成を実現するものである。

Zichen Geng, Zeeshan Hayder, Bo Miao + 3 more2026-03-03🤖 cs.AI

M-Gaussian: An Magnetic Gaussian Framework for Efficient Multi-Stack MRI Reconstruction

本論文は、3D ガウススプラッティングを MRI 再構成に応用した「M-Gaussian」を提案し、物理的整合性を持つガウスプリミティブや多解像度学習などにより、高品質かつ高速な多スタック MRI 画像の等方性再構成を実現したものである。

Kangyuan Zheng, Xuan Cai, Jiangqi Wang + 6 more2026-03-03🤖 cs.AI

Mechanistically Guided LoRA Improves Paraphrase Consistency in Medical Vision-Language Models

本論文は、医療用ビジョン・ランゲージモデルの言い換えに対する一貫性を高めるため、メカニズムに基づくスパース・オートエンコーダの転知と、一貫性と正解率を両立させる LoRA 微調整を組み合わせる手法を提案し、翻転率の大幅な削減と精度の維持・向上を実証したものである。

Binesh Sadanandan, Vahid Behzadan2026-03-03💻 cs

← 前へ次へ →