cs.CV 件の論文 | Gist.Science

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

本論文は、V2X 通信とクラウドコンピューティングを活用し、トランスフォーマーモデルによる鳥瞰図表現と動的な計算分割・量子化制御を組み合わせることで、自律走行車の 360 度 3D 環境認識における帯域幅変動への適応性と低遅延化を実現する手法を提案しています。

Faisal Hawladera, Rui Meireles, Gamal Elghazaly + 2 more2026-03-02🤖 cs.LG

Altitude-Aware Visual Place Recognition in Top-Down View

この論文は、地上特徴量の密度分析に基づく相対高度推定と画像切り抜きを統合した視覚のみのアプローチを提案し、高度変化が著しい環境下における無人航空機の視覚的場所認識の精度と頑健性を大幅に向上させることを示しています。

Xingyu Shao, Mengfan He, Chunyu Li + 2 more2026-03-02💻 cs

DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution

本論文は、劣化画像に対する認識性能を向上させる「Real Embedding Extractor (REE)」と、その高次情報を活用して高画質化を実現する「Conditional Feature Modulator (CFM)」を備えた Mamba ベースのネットワーク「DACESR」を提案し、実世界の画像超解像における忠実度と知覚的品質の両立を達成するものです。

Xiaoyan Lei, Wenlong Zhang, Biao Luo + 3 more2026-03-02💻 cs

SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

この論文は、人間の注釈や外部のフロー監視を必要とせず、時間的集約と特徴量のコサイン類似性に基づく自己教師あり学習により、3 次元占有と運動を同時に推定する「SelfOccFlow」を提案し、複数のデータセットでその有効性を示したものです。

Xavier Timoneda, Markus Herb, Fabian Duerr + 1 more2026-03-02💻 cs

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

本論文は、既存の参照表現理解ベンチマークの弱点を克服し、言語的複雑性と困難な敵対的ノイズを備えた新しいベンチマーク「Ref-Adv」を提案し、多モーダル大規模言語モデルが既存タスクでは高い性能を示すものの、この新しいベンチマークでは視覚推論やグラウンディングの能力不足とショートカットへの依存が露呈することを示しています。

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

本研究は、過去の病理確認結果やモデル予測などの経験データを記憶・検索して適応的に意思決定を行う「BUSD-Agent」と呼ばれる経験誘導型自己適応カスケードエージェントを提案し、乳がん超音波検査において不必要な生検を大幅に削減しつつ診断精度を向上させることを実証したものです。

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation

本論文は、B スプライン制御点空間での非同期フローマッチングと双方向予測、および再適合最適化を導入することで、ロボット操作における軌道の滑らかさとリアルタイム応答性を両立させる「ABPolicy」を提案し、動的環境を含む複数のタスクでその有効性を実証しています。

Fan Yang, Peiguang Jing, Kaihua Qu + 2 more2026-03-02💻 cs

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

医療画像セグメンテーションにおいて、非対称アーキテクチャやアテンション機構などを統合した軽量フレームワーク「SegMate」が、計算リソースを大幅に削減しつつ最先端の精度と優れた汎化性能を達成することを提案しています。

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu2026-03-02🤖 cs.LG

Half-Truths Break Similarity-Based Retrieval

この論文は、CLIP などのモデルが誤った詳細を含む半真実の記述に対して誤って高い類似度を示す問題を特定し、キャプションを構成要素（実体や関係）に分解して教師あり学習を行う「CS-CLIP」を提案することで、この欠陥を大幅に改善し、構成的理解能力を向上させることを示しています。

Bora Kargi, Arnas Uselis, Seong Joon Oh2026-03-02💻 cs

The Geometry of Transfer: Unlocking Medical Vision Manifolds for Training-Free Model Ranking

本論文は、分類タスク向けに設計された既存の転移性評価指標の限界を克服し、最小全域木を用いた大域的トポロジー乖離と境界認識局所トポロジー整合性を組み合わせることで、医療画像セグメンテーションタスクにおける事前学習モデルの選定をファインチューニングなしで高精度に行う新しいトポロジー駆動型転移性評価フレームワークを提案し、OpenMindベンチマークにおいて既存手法を大幅に上回る性能を示したものである。

Jiaqi Tang, Shaoyang Zhang, Xiaoqi Wang + 3 more2026-03-02🤖 cs.AI

Leveraging Geometric Prior Uncertainty and Complementary Constraints for High-Fidelity Neural Indoor Surface Reconstruction

本論文は、事前知識の不確実性を明示的に推定し、それを活用して事前知識を排除するのではなく調整する損失関数と、境界補強や多視点整合性などの相補的制約を導入することで、室内環境における微細構造を含む高精度なニューラル表面復元を実現する「GPU-SDF」を提案しています。

Qiyu Feng, Jiwei Shan, Shing Shin Cheng + 1 more2026-03-02💻 cs

Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

本論文は、実世界の室内動画から構築された大規模なマルチモーダル時空間知識グラフ「YE-KG」と、これを視覚言語ナビゲーションモデルに統合する階層的検索メカニズム「STE-VLN」を提案し、粗粒度の指示や長期的な推論が求められる未見環境でのナビゲーション性能を飛躍的に向上させることを示しています。

Haoxuan Xu, Tianfu Li, Wenbo Chen + 4 more2026-03-02💻 cs

PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning

この論文は、3D 点雲の幾何学的推論におけるハルシネーションを解消し、推論プロセスを明示化する「PointCoT」フレームワークと、階層的な Chain-of-Thought アノテーションを備えた大規模ベンチマーク「Point-Reason-Instruct」を提案し、マルチモーダル大規模言語モデルの 3D 理解能力を飛躍的に向上させることを示しています。

Dongxu Zhang, Yiding Sun, Pengcheng Li + 12 more2026-03-02🤖 cs.AI

Micro-expression Recognition Based on Dual-branch Feature Extraction and Fusion

本論文は、残差ネットワークと Inception ネットワークを並列に組み合わせ、適応的な特徴融合モジュールを備えた双枝構造のニューラルネットワークを提案し、CASME II データセットにおいて既存手法を上回る 74.67% の精度で微表情認識を達成したことを報告しています。

Mingjie Zhang, Bo Li, Wanting Liu + 5 more2026-03-02🤖 cs.AI

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

本論文は、視覚情報と外部知識の相関を考慮し、視覚中心のコンテキスト矛盾推論と相関誘導型符号化・復号化を採用することで、知識ベースの視覚質問応答（KB-VQA）における知識矛盾を効果的に解決し、最先端の性能を達成するトレーニング不要な手法「CC-VQA」を提案するものです。

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs

GDA-YOLO11: Amodal Instance Segmentation for Occlusion-Robust Robotic Fruit Harvesting

本論文は、果実の収穫における遮蔽問題に対処するため、非対称マスク損失とアーキテクチャ改良を統合した新規アモーダルセグメンテーションモデル「GDA-YOLO11」を提案し、ロボットによる果実収穫の成功率向上と実用化への道を開いたことを示しています。

Caner Beldek, Emre Sariyildiz, Son Lam Phung + 1 more2026-03-02💻 cs

SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls

SwitchCraft は、イベントとフレームの対応を考慮したアテンション制御と適応的な強度調整を行うトレーニングフリーのフレームワークであり、単一イベントに限定されていた既存のテキストから動画生成モデルの課題を解決し、複数のイベントを含む一貫性のある動画生成を実現します。

Qianxun Xu, Chenxi Song, Yujun Cai + 1 more2026-03-02💻 cs

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

本論文は、画像内の領域を連続的な数値座標として直接生成する「数値的視覚連鎖思考（NV-CoT）」を提案し、既存のテキスト座標や固定パッチ方式の課題を克服することで、マルチモーダル大規模言語モデルの局所化精度と推論精度を大幅に向上させることを実証しています。

Kesen Zhao, Beier Zhu, Junbao Zhou + 3 more2026-03-02💻 cs

Clinically-aligned ischemic stroke segmentation and ASPECTS scoring on NCCT imaging using a slice-gated loss on foundation representations

本論文は、DINOv3 の基盤表現と解剖学的構造を考慮した Territory-Aware Gated Loss を組み合わせることで、非造影 CT 画像における脳梗塞のセグメンテーション精度と ASPECTS スコアリングの臨床的整合性を向上させる新しいフレームワークを提案し、既存の手法を上回る性能を達成したことを報告しています。

Hiba Azeem, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images

この論文は、2D で事前学習された DINOv3 表現を、非重なり 3D ウィンドウへの分解と再構成という構造化されたデコーディング手法を用いて拡張し、新生児脳 MRI 画像の海馬セグメンテーションにおいて 0.65 の Dice スコアを達成する新しいアプローチを提案しています。

Annayah Usman, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

← 前へ次へ →