cs.AI 편의 논문 | Gist.Science

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

이 논문은 모델 가중치 수정 없이 산업용 LLM 의 환각을 줄이고 일관된 결과를 도출하기 위해 제안된 5 가지 프롬프트 엔지니어링 전략을 비교 평가하고, 그 중 데이터 레지스트리 강화 (M4) 가 가장 우수한 성능을 보였으며, 개선된 M2 전략이 가장 큰 향상을 기록했다는 사실을 입증합니다.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach Gordon2026-03-12🤖 cs.AI

Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

이 논문은 Sharpness-Aware Minimization (SAM) 의 기존 구현 방식에 대한 직관적 해석을 제시하고, 근사 오차와 다단계 상승 시의 품질 저하 문제를 해결하기 위해 명시적 방향 추정과 최적화된 탐색 공간을 도입한 새로운 알고리즘인 eXplicit SAM (XSAM) 을 제안하여 기존 방법보다 우수한 일반화 성능을 입증합니다.

Jianlong Chen, Zhiming Zhou2026-03-12🤖 cs.LG

InFusionLayer: a CFA-based ensemble tool to generate new classifiers for learning and modeling

이 논문은 랭크 - 스코어 특성 (RSC) 함수와 인지 다양성 (CD) 을 기반으로 한 조합 융합 분석 (CFA) 기법을 적용하여 PyTorch, TensorFlow, Scikit-learn 등 다양한 워크플로우에서 다중 분류 문제를 해결하는 새로운 앙상블 도구인 'InFusionLayer'를 소개하고 그 성능을 검증합니다.

Eric Roginek, Jingyan Xu, D. Frank. Hsu2026-03-12🤖 cs.LG

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

이 논문은 암호화 트래픽 분류에서 시퀀스 기반 접근법의 한계를 지적하고, 프로토콜 정의 semantics 를 구조적 우선순위로 삼아 학습 가능한 필드만 선별하고 메타데이터를 보존하는 표본 기반 자기지도 학습 모델인 FlowSem-MAE 를 제안하여 적은 레이블 데이터로도 최첨단 성능을 달성함을 보여줍니다.

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

Training Language Models via Neural Cellular Automata

이 논문은 신경 세포 자동자 (NCA) 를 통해 생성된 합성 비언어 데이터를 사전-사전 학습에 활용함으로써, 자연어 학습보다 효율적으로 언어 모델의 성능과 추론 능력을 향상시키는 새로운 접근법을 제시합니다.

Dan Lee, Seungwook Han, Akarsh Kumar, Pulkit Agrawal2026-03-12🤖 cs.LG

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

이 논문은 정적 의존성 목록에 그치는 기존 SBOM 을 넘어, 런타임 행동과 환경 변화를 실시간으로 포착하고 정책 기반의 자율적 추론을 통해 취약점 평가의 재현성과 정확성을 향상시키는 '에이전트 기반 AIBOM' 프레임워크를 제안하고 그 유효성을 검증합니다.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan Atefi2026-03-12🤖 cs.AI

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

이 논문은 암호학적 증명 대신 HMAC 서명이 포함된 도구 실행 영수증과 인도 철학의 인식론적 분류를 활용하여 실시간으로 AI 에이전트의 환각을 탐지하는 경량 프레임워크 'NabaOS'를 제안하며, 기존 방법 대비 낮은 지연 시간과 높은 정확도를 달성함을 보여줍니다.

Abhinaba Basu2026-03-12🤖 cs.AI

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

이 논문은 다중 에이전트 시스템의 복잡해지는 메모리 요구사항을 컴퓨터 아키텍처 관점에서 재정의하여 공유 및 분산 메모리 패러다임을 구분하고 3 계층 구조를 제안하며, 특히 다중 에이전트 간 메모리 일관성 문제를 해결해야 할 핵심 과제로 강조합니다.

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen Zhao2026-03-12🤖 cs.AI

The Epistemic Support-Point Filter: Jaynesian Maximum Entropy Meets Popperian Falsification

이 논문은 지식을 최대한 확장하고 (최대 엔트로피) 증거에 의해 반증된 가설만 배제하는 (반증론) 두 원리를 결합하여, 사전 확률을 배제하고 최악의 경우 인식적 무지를 최소화하는 '인지적 지지점 필터 (ESPF)'가 최적의 필터임을 수학적으로 증명하고 궤적 추적 시뮬레이션을 통해 검증합니다.

Moriba Kemessia Jah2026-03-12🔢 math

HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

이 논문은 무언 (Muon) 알고리즘의 중력 꼬리 분포 억제 문제를 해결하고 성능을 향상시키기 위해 헤비-테일 자기 정규화 이론에 기반한 'HTMuon'을 제안하고, 이를 통해 LLM 사전 학습 및 이미지 분류에서 기존 최첨단 방법보다 우수한 결과를 입증합니다.

Tianyu Pang, Yujie Fang, Zihang Liu, Shenyang Deng, Lei Hsiung, Shuhua Yu, Yaoqing Yang2026-03-12🤖 cs.LG

ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models

이 논문은 단일 프롬프트 평가의 한계를 극복하고, 지속적 상호작용 하에서 LLM 의 안전성 저하를 연속적 궤적으로 측정하며 판사 모델의 신뢰성을 핵심 지표로 삼는 자동화된 레드팀링 프레임워크인 ADVERSA 를 제안하고, 이를 통해 선두 모델들 간의 초기 라운드에 집중된 재일브랙 경향과 다양한 실험적 한계들을 규명했습니다.

Harry Owiredu-Ashley2026-03-12🤖 cs.AI

Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models

이 논문은 희소 오토인코더 (SAE) 를 시계열 파운데이션 모델 Chronos-T5-Large 에 적용하여, 주기적 패턴 인식보다 급격한 동적 변화 탐지가 예측에 더 중요하며 중간 레이어의 특징이 최종 레이어보다 인과적으로 결정적임을 규명했습니다.

Anurag Mishra2026-03-12🤖 cs.LG

Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation

이 논문은 Vul4J 벤치마크를 통해 LLM 이 생성한 보안 패치의 성공률을 분석한 결과, 문법적 오류는 적으나 의미적 오해로 인해 보안 및 기능적 실패율이 높음을 규명하고 이를 정량화하는 보안 복구 점수 (SRS) 를 제안했습니다.

Amir Al-Maamari2026-03-12🤖 cs.AI

Marginals Before Conditionals

이 논문은 신경망이 조건부 학습을 수행할 때 모호성으로 인해 발생하는 로그 K 의 손실 플래토가 먼저 형성된 후, 데이터셋 크기와 학습률에 의해 결정되는 집단적 전이를 거쳐 급격히 해결되는 역동적 학습 메커니즘을 규명했습니다.

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

TASER: Task-Aware Spectral Energy Refine for Backdoor Suppression in UAV Swarms Decentralized Federated Learning

이 논문은 UAV 군집의 분산 연합 학습에서 기존 이상치 탐지 기반 방어법의 한계를 극복하기 위해, 공격자가 은닉할수록 두드러지는 그라디언트의 주파수 특성을 분석하여 백도어 작업을 구조적으로 무력화하는 'TASER'라는 새로운 효율적 방어 프레임워크를 제안합니다.

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

이 논문은 기존 안전 장치를 우회하여 오픈 가중치 대규모 언어 모델 (LLM) 이 유해한 콘텐츠를 생성하도록 유도하는 '아메네시아 (Amnesia)'라는 경량화 활성화 공간 적대적 공격 기법을 제안하고 그 유효성을 입증합니다.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Digging Deeper: Learning Multi-Level Concept Hierarchies

이 논문은 최상위 수준의 감독 신호만으로 다단계 개념 계층 구조를 발견하는 'MLCS'와 이를 표현하여 다양한 추상화 수준에서의 개입을 가능하게 하는 'Deep-HiCEMs' 아키텍처를 제안함으로써, 기존 평면적이고 얕은 계층에 국한되었던 개념 기반 모델의 한계를 극복하고 해석 가능성과 작업 성능을 동시에 향상시킵니다.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

이 논문은 GPU 커널 최적화에서 기존 LLM 의 암묵적 휴리스틱을 대체하여 지식 기반의 전문가 기술과 이중 수준 메모리 구조를 갖춘 다중 에이전트 프레임워크인 KernelSkill 을 제안하고, 이를 통해 Torch Eager 대비 최대 5.44 배의 속도 향상과 높은 성공률을 달성했음을 보여줍니다.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

이 논문은 확산 기반 대규모 언어 모델 (dLLM) 의 추론 과정에서 중간 표현의 미묘한 변화를 분석하여 토큰 중요도를 기반으로 초기 레이어의 연산을 생략하는 훈련 없는 가속화 프레임워크 'ES-dLLM'을 제안하며, 생성 품질을 유지하면서 기존 방식 대비 최대 16.8 배의 속도 향상을 달성함을 보여줍니다.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference

이 논문은 사고 모드 (thinking mode) 를 사용하는 대형 언어 모델의 안전 정렬을 우회하기 위해 단일 프롬프트 내 여러 작업 스트림을 교차시켜 간섭을 유발하는 '멀티스트림 교란 공격'을 제안하고, 이를 통해 주요 모델들에서 높은 공격 성공률과 사고 과정 붕괴를 입증했습니다.

Fan Yang2026-03-12🤖 cs.AI

← 이전 다음 →