A dataset of medication images with instance segmentation masks for preventing adverse drug events

この論文は、現実世界の複雑な条件(重なりや照明のばらつきなど)を反映した 32 種類の薬品 8262 画像からなるインスタンスセグメンテーションデータセット「MEDISEG」を提案し、これを用いた AI モデルが既存データセットよりも優れた薬物誤認防止性能を示すことを実証しています。

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

本論文は、現実的なドメインシフト下での薬剤安全向上を目的とした自動ピル認識システムについて、複雑な環境やオーバーラップ条件下での局在化能力の低下を指摘しつつ、少量のラベル付きデータによるファインチューニングが意味的な認識性能の急速な適応と実用化への診断的有用性を示すことを明らかにしています。

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

MAD: Memory Allocation meets Software Diversity

DRAM 誤差に起因する RowHammer 攻撃に対する新たな防御策として、ソフトウェア多様性の原理をメモリ割当てに応用し、メモリサブシステム内のエントロピー不足という課題を克服するとともに、実装の容易さや性能への影響の少なさを両立させる「MAD」と呼ばれる手法が提案されています。

Manuel Wiesinger, Daniel Dorfmeister, Stefan Brunthaler2026-03-12💻 cs

Topological Analysis for Identifying Anomalies in Serverless Platforms

この論文は、Hodge 分解を用いた位相モデルを提案し、サーバーレスプラットフォームの複雑な情報フローを局所的に修正可能な成分と構造的な調和モードに分離することで、設定ミスではなくシステム固有の性質として捉え、実用的な修復戦略(「ダンプ効果」の導入など)を導き出す手法を提示しています。

Gianluca Reali, Mauro Femminella2026-03-12💻 cs

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

本論文は、乳がん超音波診断の臨床ワークフローに即し、病変の局所化から属性分析、証拠に基づく推論までを階層的なマルチエージェントが担う「UltrasoundAgents」を提案し、段階的な学習戦略により診断精度と証拠の追跡可能性を向上させることを示しています。

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

本論文は、非 CUDA 環境である Ascend NPU プラットフォーム上で完全オープンソース化された音声理解基盤モデル「OSUM-Pangu」を提案し、OpenPangu-7B を基盤として音声知覚とユーザー意図認識を順次統合するトレーニング手法により、GPU ベースの主要モデルと同等の精度を達成したことを示しています。

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei Xie2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

この論文は、マルチモーダル大規模言語モデルが長文脈で視覚情報の重要性を失う「視覚の薄れ」現象を、視覚とテキストトークン間の距離に依存しない新しい位置符号化手法「DIPE」を導入することで解決し、長文脈においても安定した視覚的根拠を維持できることを示しています。

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Exploring Indicators of Developers' Sentiment Perceptions in Student Software Projects

本論文は、学生チームのソフトウェア開発プロジェクトを対象とした調査研究を通じて、開発者の気質や状況などの要因がテキストメッセージの感情評価に与える影響が限定的であり、評価のばらつきは主にメッセージ自体の曖昧さに起因することを明らかにし、感情分析の解釈には注意が必要であると結論付けています。

Martin Obaidi, Marc Herrmann, Jendrik Martensen, Jil Klünder, Kurt Schneider2026-03-12💻 cs

FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation

本論文は、触覚の定量的接触状態(力、幾何学、主軸など)を言語と対照的に学習する新しい前学習フレームワーク「FG-CLTP」と大規模データセットを提案し、これにより触覚言語行動モデルの精度と汎化性能を大幅に向上させることを示しています。

Wenxuan Ma, Chaofan Zhang, Yinghao Cai, Guocai Yao, Shaowei Cui, Shuo Wang2026-03-12💻 cs

Bilevel Layer-Positioning LoRA for Real Image Dehazing

本論文は、CLIP のクロスモーダル能力を活用した「ハゼからクリアへのテキスト指向損失」と、LoRA パラメータと注入層を同時に学習する「バイレベル層位置決め LoRA(BiLaLoRA)」戦略を提案し、ラベルなしデータを用いた実画像の除霧性能を大幅に向上させる手法を提示しています。

Yan Zhang, Long Ma, Yuxin Feng, Zhe Huang, Fan Zhou, Zhuo Su2026-03-12💻 cs

RL-Augmented MPC for Non-Gaited Legged and Hybrid Locomotion

この論文は、強化学習とモデル予測制御を階層的に結合したアーキテクチャを提案し、シミュレーションから実機(120kg の Centauro ロボット)へのドメインランダム化なしのゼロショット転送を成功させ、平坦および非平坦な地形における歩行・ハイブリッド移動の制御を実現したことを示しています。

Andrea Patrizi, Carlo Rizzardo, Arturo Laurenzi, Francesco Ruscelli, Luca Rossini, Nikos G. Tsagarakis2026-03-12💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

この論文は、生音データを保存せずにウェアラブル機器を用いてリアルタイムで医療従事者の自然なコミュニケーション行動を分析するシステム「VoxCare」を提案し、そのデータから業務負荷やストレスを推測可能な行動指標を導き出すことで、医療提供の改善に貢献する手法を示しています。

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth Narayanan2026-03-12💻 cs

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs

本論文は、スパースな入力点群を拡散モデルで高品質な画像に修復し、ランダムサンプリングドロップと重み付き勾配を用いた再構築戦略により、最小限の入力画像から高品質で 3 次元整合性の高い 3D ガウススプラッティング(3DGS)を生成する「S2D」と呼ばれる新規パイプラインを提案するものである。

Yuzhou Ji, Qijian Tian, He Zhu, Xiaoqi Jiang, Guangzhi Cao, Lizhuang Ma, Yuan Xie, Xin Tan2026-03-12💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

この論文は、分散学習環境における畳み込みニューラルネットワーク(CNN)のアーキテクチャがモデル精度に与える影響と、計算効率を左右する要因を分析し、リソース集約的なシナリオにおける CNN の展開最適化に寄与する知見を提供するものである。

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues Moreira2026-03-12💻 cs

Training-Free Multi-Step Inference for Target Speaker Extraction

この論文は、事前学習済みモデルを凍結したまま、混合音声と過去の推定値を補間して候補を生成し、侵入型または非侵入型の指標を最適化することで反復的に改善を行う、教師なしの多段階推論手法を提案し、ターゲット話者抽出の精度向上と実用性を両立させることを示しています。

Zhenghai You, Ying Shi, Lantian Li, Dong Wang2026-03-12💻 cs

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

本論文は、視覚・言語・ロボット状態の情報を多モーダル潜在空間に圧縮保存する「マルチモーダル潜在リプレイ」とタスク埋め込みの進化を正則化する「インクリメンタル調整」を組み合わせた新しい生涯模倣学習フレームワークを提案し、LIBERO ベンチマークにおいて既存手法を大幅に上回る性能と忘却の抑制を実現したことを報告しています。

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella, Cigdem Beyan, Vittorio Murino2026-03-12💻 cs