cs.CV 件の論文 | Gist.Science

PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

本論文は、ユーザーの美的意図を推論し木探索による多段階アクション計画と閉ループ実行を組み合わせることで、ステップごとの指示なしに自律的な高品質な写真編集を実現する「PhotoAgent」システムと、その評価のためのベンチマーク「UGC-Edit」を提案するものである。

Mingde Yao, Zhiyuan You, King-Man Tam + 2 more2026-03-03💻 cs

OmniGAIA: Towards Native Omni-Modal AI Agents

本論文は、視覚・音声・言語を統合したネイティブなオムニモーダル AI エージェントの実現に向け、複雑な推論とツールの活用を評価するベンチマーク「OmniGAIA」と、その評価に基づき学習された高度なツール利用能力を持つ基盤エージェント「OmniAtlas」を提案するものである。

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin + 8 more2026-03-03💬 cs.CL

HELMLAB: An Analytical, Data-Driven Color Space for Perceptual Distance in UI Design Systems

本論文は、UI デザインシステムにおける知覚的距離をより正確に評価するために、CIEDE2000 よりも 20.2% 低い STRESS 値を達成する 72 パラメータの解析的色空間「HELMLAB」を提案し、その可逆性や実用的なユーティリティ機能も併せて紹介しています。

Gorkem Yildiz2026-03-03💻 cs

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

本論文は、現実世界の複雑な視覚シナリオと長期的なツール利用を評価するための新しいベンチマーク「AgentVista」を提案し、最先端のマルチモーダルエージェントがこれらのタスクにおいて依然として大きな課題を抱えていることを示しています。

Zhaochen Su, Jincheng Gao, Hangyu Guo + 10 more2026-03-03💻 cs

V-MORALS: Visual Morse Graph-Aided Estimation of Regions of Attraction in a Learned Latent Space

本論文は、完全な状態情報に依存せず画像ベースの軌跡データのみから学習された潜在空間を用いて、ロボットの安全な状態領域（吸引領域）を推定する新しい手法「V-MORALS」を提案しています。

Faiz Aladin, Ashwin Balasubramanian, Lars Lindemann + 1 more2026-03-03🤖 cs.LG

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

本論文は、全スライド画像の空間的階層構造と多スケール情報を動的グラフと知識誘導アテンションで統合する階層的マルチスケール知識認識グラフネットワーク（HMKGN）を提案し、がん患者の生存予測において既存の MIL ベースのモデルを有意に上回る性能を達成したことを報告しています。

Bin Xu, Yufei Zhou, Boling Song + 6 more2026-03-03⚡ eess

AoE: Always-on Egocentric Human Video Collection for Embodied AI

本論文は、スマートフォンの装着とクラウドエッジ協調アーキテクチャを活用して、低コストかつ大規模に実世界の高品質な身体知能学習データを収集・処理する「AoE（Always-on Egocentric）」システムを提案し、その有効性を示したものである。

Bowen Yang, Zishuo Li, Yang Sun + 15 more2026-03-03💻 cs

Learning Under Extreme Data Scarcity: Subject-Level Evaluation of Lightweight CNNs for fMRI-Based Prodromal Parkinsons Detection

40 名の fMRI 画像データを用いた前駆期パーキンソン病の検出研究において、画像レベルではなく厳密な被験者レベルでデータを分割して評価した結果、情報漏れを防ぎ、パラメータ数の少ない軽量モデル（MobileNet V1）が深いモデルよりも優れた汎化性能を示すことが明らかになった。

Naimur Rahman2026-03-03🤖 cs.LG

Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems

標準的な評価指標では見落とされがちな「自信過剰な誤り」を特定し、曖昧なデータに対する確信ある誤答を抑制してモデルの推論限界を適切に定義するための診断フレームワーク「Certainty-Validity」を提案する論文です。

Datorien L. Anderson2026-03-03🤖 cs.LG

Automated Quality Check of Sensor Data Annotations

この論文では、自動運転鉄道システムの安全性に不可欠な多センサーデータセットの品質を向上させるため、9 種類の一般的なアノテーション誤りを検出するオープンソースツールを開発し、その精度を検証したことを報告しています。

Niklas Freund, Zekiye Ilknur-Öz, Tobias Klockau + 3 more2026-03-03💻 cs

Multimodal Modular Chain of Thoughts in Energy Performance Certificate Assessment

本論文は、限られた視覚情報からエネルギー性能証明書（EPC）を自動推定するための低コストなマルチモーダルモジュラーチェーン・オブ・思考（MMCoT）フレームワークを提案し、英国の住宅データを用いた実験で従来の指示のみによるプロンプト手法よりも統計的に有意な精度向上と順序構造の捕捉を実現したことを示しています。

Zhen Peng, Peter J. Bentley2026-03-03🤖 cs.AI

VoxelDiffusionCut: Non-destructive Internal-part Extraction via Iterative Cutting and Structure Estimation

本論文は、3D 形状の多様性と不確実性に対処するため拡散モデルを用いて切断面から内部構造を確率的に推定し、対象部品の非破壊抽出を可能にする「VoxelDiffusionCut」という手法を提案しています。

Takumi Hachimine, Yuhwan Kwon, Cheng-Yu Kuo + 2 more2026-03-03💻 cs

Efficient Image Super-Resolution with Multi-Scale Spatial Adaptive Attention Networks

本論文は、高品質な画像超解像と低モデル複雑性の両立を可能にするため、多スケール空間適応アテンションモジュールなどを含む軽量ネットワーク「MSAAN」を提案し、標準ベンチマークにおいて最先端の手法と同等以上の性能を低い計算コストで達成することを示しています。

Sushi Rao, Jingwei Li2026-03-03💻 cs

BiSe-Unet: A Lightweight Dual-path U-Net with Attention-refined Context for Real-time Medical Image Segmentation

本論文は、リソース制約のあるエッジデバイス上でのリアルタイム医療画像セグメンテーションを実現するため、注意機構で洗練された文脈経路と浅い空間経路を統合した軽量な双経路 U-Net「BiSe-Unet」を提案し、Kvasir-Seg データセットにおいて 30 FPS 以上の推論速度と高精度な分割性能を両立させることを示しています。

M Iffat Hossain, Laura Brattain2026-03-03💻 cs

NovaLAD: A Fast, CPU-Optimized Document Extraction Pipeline for Generative AI and Data Intelligence

NovaLAD は、2 つの YOLO モデルとルールベースのグループ化、およびオプションのビジョン言語モデルを統合し、GPU 不要で CPU 上で高速かつ高精度に動作するドキュメント抽出パイプラインとして、DP-Bench ベンチマークで既存の商用・オープンソース解析器を上回る性能を達成したことを提案しています。

Aman Ulla2026-03-03🤖 cs.AI

CT-Flow: Orchestrating CT Interpretation Workflow with Model Context Protocol Servers

本論文は、臨床的な CT 画像解釈の動的なワークフローを模倣し、モデルコンテキストプロトコル（MCP）を活用してツール駆動型の自律的推論を実現する新しいエージェントフレームワーク「CT-Flow」を提案し、その性能を大規模ベンチマーク「CT-FlowBench」で実証したものである。

Yannian Gu, Xizhuo Zhang, Linjie Mu + 4 more2026-03-03🤖 cs.AI

QuickGrasp: Responsive Video-Language Querying Service via Accelerated Tokenization and Edge-Augmented Inference

本論文は、大規模なビデオ言語モデルの高精度と小規模モデルの低遅延を両立させるため、ローカルファーストのアーキテクチャにエッジ拡張を組み合わせ、視覚表現の共有とトークン化の高速化を実現した「QuickGrasp」と呼ばれる応答性の高いビデオ言語クエリサービスシステムを提案するものである。

Miao Zhang, Ruixiao Zhang, Jianxin Shi + 3 more2026-03-03⚡ eess

Segmenting Low-Contrast XCTs of Concretes: An Unsupervised Approach

この論文は、コンクリートのX線CT画像におけるアグリゲートとモルタルの低コントラストという課題に対し、スーパーピクセルアルゴリズムを活用した自己注釈ベースの教師なし手法でCNNを訓練し、セマンティックセグメンテーションを可能にするアプローチを提案・検証したものである。

Kaustav Das, Gaston Rauchs, Jan Sykora + 1 more2026-03-03💻 cs

Predicting Local Climate Zones using Urban Morphometrics and Satellite Imagery

本研究は、都市形態計測と衛星画像を用いた局所気候帯（LCZ）の予測を評価した結果、形態計測単独ではサイト依存性が強く、画像との融合による精度向上も限定的かつ一貫性を欠くため、形態学的研究における LCZ フレームワークの使用には注意が必要であると結論付けています。

Hugo Majer, Martin Fleischmann2026-03-03💻 cs

You Don't Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models

本論文は、テキストから画像を生成する拡散モデルにおける学習データの記憶（メモリー化）を、プロンプトごとの推論時にクロスアテンションを動的に調整する「GUARD」という新フレームワークで抑制し、生成品質を損なうことなくプライバシーや著作権侵害のリスクを低減する手法を提案しています。

Kairan Zhao, Eleni Triantafillou, Peter Triantafillou2026-03-03🤖 cs.AI

← 前へ次へ →