cs.AI 件の論文 | Gist.Science

Addressing the Ecological Fallacy in Larger LMs with Human Context

この論文は、大規模言語モデル（8B Llama）において、同じ著者の他のテキストを文脈として扱う「HuLM」タスクや「HuFT」手法を用いて生態学的誤謬に対処することで、標準的な微調整よりも下流タスクの性能を向上させられることを示しています。

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Facial Expression Recognition Using Residual Masking Network

この論文は、セグメンテーションネットワークを用いて特徴マップを精緻化し、Deep Residual Network と Unet 類似アーキテクチャを組み合わせる「Residual Masking Network」を提案し、FER2013 および VEMO データセットで最先端の精度を達成したことを述べています。

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

この論文は、LLM ベースのコーディングエージェントの失敗を、ドメイン固有の分類体系と自動注釈、ハイブリッド説明生成器を用いて構造化された可視化や自然言語による実用的な洞察に変換する XAI 手法を提案し、ユーザーが失敗の根本原因を特定する速度と修正の精度を大幅に向上させることを実証しています。

Arun Joshi2026-03-09🤖 cs.AI

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

この論文は、画像の情報密度に応じて特異値スペクトルに基づきトークン予算を動的に決定する「E-AdaPrune」を提案し、学習パラメータを追加することなく視覚言語モデルの効率と推論精度を向上させる手法を提示しています。

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

この論文は、個人の特性と状況的要素を統合した理論に基づく解釈可能なモデルを開発し、ソーシャルメディアデータから精神的健康を予測・分析することで、計算機モデルと心理学的理論の融合が文脈に敏感で人間に理解しやすい動的な精神状態の評価に有効であることを示しています。

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Domain-Adaptive Model Merging across Disconnected Modes

この論文は、プライバシーやデータ異質性の制約下で分散学習を行う際に、正規化統計量から擬似データを合成し、多様なモデルから知識を蒸留する軽量な手法「DMM」を提案し、既存のモデルマージ手法を上回る性能を達成することを示しています。

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian Wu2026-03-09🤖 cs.AI

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

本論文は、3 次元人体骨格データを視覚的セマンティクスに基づいて画像形式に変換する「Skeleton-to-Image Encoding (S2I)」を提案し、これにより大規模視覚事前学習モデルを骨格表現学習に適用可能にし、多様なデータソースからの骨格データを統一的に扱えるようにすることで自己教師あり学習の効果を高めたことを示しています。

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

この論文は、2 枚の画像間の静的な比較に留まらず、中間フレームの生成と学習可能なクエリを用いて変化の「手順」を動的にモデル化する新しいフレームワーク「ProCap」を提案し、変化キャプション生成の精度向上を実現するものです。

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

An Interactive Multi-Agent System for Evaluation of New Product Concepts

この論文は、R&D やマーケティングなどの専門分野を担う 8 つの仮想エージェントからなる大規模言語モデル（LLM）ベースのマルチエージェントシステムを提案し、技術的・市場的実現可能性の観点から新製品コンセプトを客観的に評価することで、従来の専門家主導アプローチの課題を克服し、意思決定を支援できることを実証したものである。

Bin Xuan, Ruo Ai, Hakyeon Lee2026-03-09🤖 cs.AI

Technical Report: Automated Optical Inspection of Surgical Instruments

この技術報告書は、パキスタン製医療器具の製造欠陥を特定・修正し、患者の安全を確保するために、YOLOv8 や ResNet-152 などの深層学習アーキテクチャを活用した 4,414 枚の画像データセットを用いた自動光学検査（AOI）システムの開発と産業への応用を提案するものである。

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

TADPO: Reinforcement Learning Goes Off-road

この論文は、オフロード走行という長期的かつ報酬信号が希薄な課題に対処するため、教師あり軌道と探索軌道を組み合わせた新しい方策勾配手法「TADPO」を提案し、シミュレーションから実車へのゼロショット転移に成功した RL ベースの全スケールオフロード走行システムを世界で初めて実装したことを報告しています。

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

本論文は、非同期かつ不均等な間隔で観測される時系列データ（ISTS）の予測精度を向上させるため、視覚・言語・時系列の各モダリティを統合し、大規模言語モデルを活用して文脈的意味や微細な時間的パターンを学習するマルチモーダルフレームワーク「MM-ISTS」を提案するものである。

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

本論文は、視覚的バイアスにより言語指示を無視する「言語的盲目性」という VLA モデルの欠陥を特定し、再学習なしで推論時に注意機構を再調整する IGAR 手法を提案することで、矛盾する指示下でのロボットの誤作動を効果的に防止することを示しています。

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

この論文は、CNN の構造的効率と KAN の非線形表現力を統合した「RepKAN」と呼ばれる新しいアーキテクチャを提案し、EuroSAT や NWPU-RESISC45 などのデータセットを用いた実験で、最先端モデルを上回る性能を維持しつつ、リモートセンシング画像分類において物理的に解釈可能な推論を実現したことを示しています。

Minjong Cheon2026-03-09🤖 cs.AI

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

本論文は、大規模言語モデルに基づくマルチエージェントシステムのオーケストレーションを目的としたグラフ中心フレームワーク「MASFactory」を提案し、自然言語の意図を編集可能なワークフローにコンパイルする「Vibe Graphing」や再利用可能コンポーネント、可視化機能を通じて、複雑なグラフワークフローの実装負担を軽減し、ベンチマークでその有効性を検証したものである。

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

Sensitivity-Aware Retrieval-Augmented Intent Clarification

本論文は、医療や法務など機密性の高い分野における検索拡張型意図明確化システムにおいて、攻撃モデルの定義、検索レベルの防御策の設計、そして保護レベルとシステムの有用性のトレードオフを評価する方法を提案する研究課題を提示しています。

Maik Larooij2026-03-09🤖 cs.AI

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

本論文は、自動運転における軽量ビジョン・ランゲージモデルの失敗要因を解明するため、中間活性化を分析し、物体の存在は線形的に符号化されるが向きなどの空間概念は暗黙的であり、さらに距離の増加が概念の線形分離性を低下させることで、知覚的失敗と認知的失敗という 2 つの失敗モードを特定したことを示しています。

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

この論文は、教師-学生蒸留アプローチ、アイデンティティ固定、時間的正則化、および視覚音素に基づく音声条件付けを統合した「TempoSyncDiff」を提案し、低遅延かつ時間的に一貫した高品質な音声駆動トークングヘッド生成を実現する軽量潜在拡散フレームワークを提示しています。

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

この論文は、LLM が PDDL 環境でステップごとのシミュレーションを通じて計画を行う「アジェンティック」アプローチを評価し、古典的ソルバーには及ばないものの直接計画よりわずかに優れ、より短い計画を生成する一方で、外部検証がない自己評価型のフィードバックが性能向上の限界要因であることを示しています。

Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

オーストリアのドイツ語 A レベルの記述式答案を評価する大規模言語モデル（LLM）を用いた自動採点の研究において、Rubric に基づく評価は可能であるものの、人間の採点者との一致率が低く、現時点では実用化には至らないことが示されました。

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

← 前へ次へ →