cs.CV 件の論文 | Gist.Science

SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

この論文は、対照学習におけるすべてのフレームを均等に扱う問題や異なる手話間の類似性による負のペアの区別困難さという課題に対処するため、フリーネガティブペアを用いた自己教師あり学習手法と新たなデータ拡張技術を組み合わせた新しいフレームワーク「SSL-SLR」を提案し、手話認識の精度向上を実現したものである。

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay2026-03-09💻 cs

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

本論文は、イベントカメラの閾値設定に起因するイベントの欠損や断片化という実世界の課題に対処するため、モダリティ固有の表現を解離させてから選択的に融合する「RED」という堅牢なイベント誘導モーションデブラリング手法を提案し、合成および実世界のデータセットにおいて最先端の精度と堅牢性を達成したことを示しています。

Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao Jiang2026-03-09💻 cs

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

本論文は、自己教師あり学習の VICReg 目的関数を再生核ヒルベルト空間に拡張した「Kernel VICReg」を提案し、非線形構造のデータやサンプル数が限られる環境において、従来のユークリッド空間ベースの手法よりも優れた表現学習とモデルの崩壊防止を実現することを示しています。

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

この論文は、分散クライアント間でのタスク継続学習におけるクラス間の知識一貫性の欠如が引き起こす忘却問題を解決するため、クラス内分布補償メカニズムとクラス意識型プロンプト集約方式を導入した新たな手法「C²Prompt」を提案し、最先端の性能を達成したことを報告しています。

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

この論文は、密な幾何学的再構成を必要とせず、信頼性較正された意味的証拠の仲裁、制御成長型意味トポロジー記憶、および意味的有用性に基づくサブゴール選択という 3 つの主要コンポーネントを通じて、脚付きロボットがノイズの多い異種観測から安定した探索意思決定を可能にする「意思決定駆動型意味的物体探索」手法を提案し、シミュレーションおよび実環境での実験でその有効性を検証したものである。

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

本論文は、マルチラベルクラスインクリメンタル学習における忘却と誤検出を解消するため、CLIP の表現をクラス固有のプロンプト空間に分離し、リプレイ不要かつパラメータ効率よく学習する「DeCLIP」フレームワークを提案するものである。

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

Beyond Flat Unknown Labels in Open-World Object Detection

この論文は、従来のオープンワールド物体検出が抱える「未知」ラベルの単一化という課題を解決し、未知物体を「未知の動物」や「未知の破片」などの粗粒度カテゴリとして推論することで、自律走行などの実システムにおける意思決定を支援する新しい検出器「BOUND」を提案するものである。

Yuchen Zhang, Yao Lu, Johannes Betz2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

本論文は、動画生成モデルの直感的な物理理解を評価する新しいトレーニング不要な手法「LikePhys」を提案し、人間の嗜好と高い相関を持つ指標「PPE」を用いて、モデル容量や推論設定の拡大に伴う物理理解能力の向上傾向を実証的に明らかにしています。

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

本論文は、ぼやけたグローバルな予測「キャンバス」を非一様マスクとして導入し、動きに応じたサンプリング順序やコンポジション型の Classifier-Free Guidance を組み合わせることで、少ないサンプリングステップで高品質な動画生成を実現する新しい自己回帰モデル「CanvasMAR」を提案するものです。

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

この論文は、3D 事前知識や明示的な 3D 学習データなしに、画像から抽出した幾何学的情報を活用して推論中に 3D 的な想像（メンタルモデル）を可能にする新しいフレームワーク「3DThinker」を提案し、限られた視点からの 3D 空間推論において既存の手法を上回る性能を示したことを報告しています。

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

AURASeg: Attention-guided Upsampling with Residual-Assistive Boundary Refinement for Onboard Robot Drivable-Area Segmentation

本論文は、エッジデバイス上での自律ロボット向けに、注意機構を伴うアップサンプリングと残差支援境界 refinement モジュールを導入することで、境界精度と領域精度を同時に向上させる新しい走行可能領域セグメンテーション手法「AURASeg」を提案し、実機環境での有効性を検証したものである。

Narendhiran Vijayakumar, Sridevi. M2026-03-09💻 cs

Culture in Action: Evaluating Text-to-Image Models through Social Activities

この論文は、既存の文化ベンチマークが見過ごしがちな社会的活動に焦点を当て、16 か国を対象とした大規模な評価基準「CULTIVate」と新たな指標を提案し、テキスト生成画像モデルがグローバル・ノースとグローバル・サウスで文化的忠実度に系統的な偏りがあることを実証しています。

Sina Malakouti, Boqing Gong, Adriana Kovashka2026-03-09💻 cs

Decoupling Bias, Aligning Distributions: Synergistic Fairness Optimization for Deepfake Detection

本論文は、深偽検出モデルの公平性と検出精度の両立を可能にするため、モデル構造レベルでの感度チャネルの分離と特徴レベルでの分布整合を統合した二重メカニズム協調最適化フレームワークを提案し、実験により群間・群内公平性の向上と精度維持を実証したものである。

Feng Ding, Wenhui Yi, Yunpeng Zhou, Xinan He, Hong Rao, Shu Hu2026-03-09💻 cs

LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

この論文は、正確な 3 次元座標の教師あり学習に依存せず、グローバルな軌跡と単眼 2 次元の運動手がかりとの整合性を学習する「LaxMotion」という枠組みを提案し、これにより 3 次元人間運動生成における汎化性能と多様性を向上させることを示しています。

Sheng Liu, Yuanzhi Liang, Sidan Du2026-03-09💻 cs

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

この論文は、拡散モデルにおける文化的記憶の定着と一般化の曖昧さを「多モーダル象徴性」として定義し、文化的参照の認識と実現を分離評価する新たなフレームワーク「Cultural Reference Transformation (CRT)」を提案することで、単なる画像複製を超えた文脈理解に基づくモデル評価の重要性を明らかにしています。

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

この論文は、大規模言語モデル（LLM）とグリッドベースの整数計画法を組み合わせ、テキストプロンプトから構造化された制約を抽出し、粗い解から詳細な解へと段階的に最適化する「Co-Layout」という枠組みを提案し、既存の2段階パイプラインよりも優れた室内レイアウトと家具配置の自動生成を実現するものです。

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

この論文は、安全な音声記述や映画術的指示を組み合わせることで、一見 benign なプロンプトからテキスト生成動画（T2V）モデルを回避させ、意図した安全違反コンテンツを生成させる新たなジャイルブレイク手法「SPARK」を提案し、複数のモデルで高い成功率を達成したことを報告しています。

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

本論文は、新生児用ポータブル超低磁場 MRI の画質を物理的に整合性のある条件付き拡散モデル「MRIQT」を用いて高磁場 MRI 並みに向上させ、臨床診断に有用な高品質な画像を生成する手法を提案しています。

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

この論文は、医療画像解析における説明可能な AI（xAI）の評価を目的として、診断根拠となる属性とラベルの関係を完全に制御可能な合成データセット「FunnyNodules」を提案し、モデルが正しい理由で予測を行っているかを検証するための汎用的な基盤を提供するものである。

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

この論文は、視覚・気候・地理データを統合して推論する大規模ベンチマーク「FireScope-Bench」と、強化学習および視覚的監督を活用して推論プロセスを伴う高解像度の野火リスク予測モデル「FireScope」を提案し、言語ベースの推論が視覚生成モデルの汎化性能と解釈可能性を向上させることを実証しています。

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

← 前へ次へ →