Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?
この論文は、EVMbench の評価手法に存在するデータ汚染やスコープの狭さなどの限界を指摘し、拡張された評価により AI エージェントが単独でスマートコントラクトの完全自動化監査を実現するには至っていないことを示し、人間の判断と組み合わせた人間中心のワークフローの重要性を強調しています。
3447 件の論文
この論文は、EVMbench の評価手法に存在するデータ汚染やスコープの狭さなどの限界を指摘し、拡張された評価により AI エージェントが単独でスマートコントラクトの完全自動化監査を実現するには至っていないことを示し、人間の判断と組み合わせた人間中心のワークフローの重要性を強調しています。
本論文は、偏光 BRDF モデルと深度ガイド可視性マスクを導入して拡散成分と鏡面反射成分を物理的に分離し、高速かつ高精度な反射表面の再構築を実現する「PolGS++」を提案するものである。
この論文は、ビジョン・トランスフォーマーにおけるバックドア攻撃の内部表現として「トリガ方向」を特定し、その因果的役割を実証するとともに、層ごとの処理メカニズムの差異や敵対的攻撃との関連性を分析し、重みベースの検出手法を提案することで、機械的解釈性を用いたセキュリティ脆弱性の診断と対策の枠組みを示しています。
この論文は、地球科学の複雑なデータ構造を効率的に表現・処理するために、圧縮木構造に基づく一般化されたデータハイパーキューと、それを活用した特徴抽出システムを提案し、大規模な異種データセットへのスケーラブルかつユーザー中心のアクセスを実現する統合フレームワークを構築するものである。
この論文は、中国絵画の専門的評価を可能にする大規模視覚言語モデル「HanMoVLM」を提案し、専門家による検証付きの思考連鎖と報酬関数を用いて評価精度を向上させ、画像生成におけるテスト時スケーリングの検証器として機能させることを実証しています。
この論文は、現実世界の複雑な条件(重なりや照明のばらつきなど)を反映した 32 種類の薬品 8262 画像からなるインスタンスセグメンテーションデータセット「MEDISEG」を提案し、これを用いた AI モデルが既存データセットよりも優れた薬物誤認防止性能を示すことを実証しています。
この論文は、チェコ共和国の国勢調査区を対象に、人口特性と建築形態の間の線形的かつ空間的に条件付けられた関係を定量化するスケーラブルな枠組みを開発し、建築形態が社会的・空間的不平等を再生産する上で重要な役割を果たしていることを実証した。
本論文は、現実的なドメインシフト下での薬剤安全向上を目的とした自動ピル認識システムについて、複雑な環境やオーバーラップ条件下での局在化能力の低下を指摘しつつ、少量のラベル付きデータによるファインチューニングが意味的な認識性能の急速な適応と実用化への診断的有用性を示すことを明らかにしています。
DRAM 誤差に起因する RowHammer 攻撃に対する新たな防御策として、ソフトウェア多様性の原理をメモリ割当てに応用し、メモリサブシステム内のエントロピー不足という課題を克服するとともに、実装の容易さや性能への影響の少なさを両立させる「MAD」と呼ばれる手法が提案されています。
この論文は、Hodge 分解を用いた位相モデルを提案し、サーバーレスプラットフォームの複雑な情報フローを局所的に修正可能な成分と構造的な調和モードに分離することで、設定ミスではなくシステム固有の性質として捉え、実用的な修復戦略(「ダンプ効果」の導入など)を導き出す手法を提示しています。
本論文は、乳がん超音波診断の臨床ワークフローに即し、病変の局所化から属性分析、証拠に基づく推論までを階層的なマルチエージェントが担う「UltrasoundAgents」を提案し、段階的な学習戦略により診断精度と証拠の追跡可能性を向上させることを示しています。
本論文は、非 CUDA 環境である Ascend NPU プラットフォーム上で完全オープンソース化された音声理解基盤モデル「OSUM-Pangu」を提案し、OpenPangu-7B を基盤として音声知覚とユーザー意図認識を順次統合するトレーニング手法により、GPU ベースの主要モデルと同等の精度を達成したことを示しています。
この論文は、マルチモーダル大規模言語モデルが長文脈で視覚情報の重要性を失う「視覚の薄れ」現象を、視覚とテキストトークン間の距離に依存しない新しい位置符号化手法「DIPE」を導入することで解決し、長文脈においても安定した視覚的根拠を維持できることを示しています。
本論文は、学生チームのソフトウェア開発プロジェクトを対象とした調査研究を通じて、開発者の気質や状況などの要因がテキストメッセージの感情評価に与える影響が限定的であり、評価のばらつきは主にメッセージ自体の曖昧さに起因することを明らかにし、感情分析の解釈には注意が必要であると結論付けています。
本論文は、触覚の定量的接触状態(力、幾何学、主軸など)を言語と対照的に学習する新しい前学習フレームワーク「FG-CLTP」と大規模データセットを提案し、これにより触覚言語行動モデルの精度と汎化性能を大幅に向上させることを示しています。
本論文は、CLIP のクロスモーダル能力を活用した「ハゼからクリアへのテキスト指向損失」と、LoRA パラメータと注入層を同時に学習する「バイレベル層位置決め LoRA(BiLaLoRA)」戦略を提案し、ラベルなしデータを用いた実画像の除霧性能を大幅に向上させる手法を提示しています。
この論文は、強化学習とモデル予測制御を階層的に結合したアーキテクチャを提案し、シミュレーションから実機(120kg の Centauro ロボット)へのドメインランダム化なしのゼロショット転送を成功させ、平坦および非平坦な地形における歩行・ハイブリッド移動の制御を実現したことを示しています。
この論文は、生音データを保存せずにウェアラブル機器を用いてリアルタイムで医療従事者の自然なコミュニケーション行動を分析するシステム「VoxCare」を提案し、そのデータから業務負荷やストレスを推測可能な行動指標を導き出すことで、医療提供の改善に貢献する手法を示しています。
本論文は、スパースな入力点群を拡散モデルで高品質な画像に修復し、ランダムサンプリングドロップと重み付き勾配を用いた再構築戦略により、最小限の入力画像から高品質で 3 次元整合性の高い 3D ガウススプラッティング(3DGS)を生成する「S2D」と呼ばれる新規パイプラインを提案するものである。
本論文は、DNS プロトコルの制約によって定義される有界な意味領域を形式化し、権威 DNS の応答選択メカニズムの表現力を条件付制限と有限候補集合の選択という正規形に還元することで、異種システム間の等価性や表現可能性をプロトコル意味論に基づいて厳密に推論する枠組みを提示しています。