RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators
이 논문은 AI 가속기에서 캐스케이드 축소 연산 (cascaded reductions) 을 자동으로 단일 루프로 융합하여 최적화된 커널을 생성하는 'RedFuser' 프레임워크를 제안하며, 기존 AI 컴파일러 대비 최대 5 배의 성능 향상을 달성함을 보여줍니다.
2384 편의 논문
이 논문은 AI 가속기에서 캐스케이드 축소 연산 (cascaded reductions) 을 자동으로 단일 루프로 융합하여 최적화된 커널을 생성하는 'RedFuser' 프레임워크를 제안하며, 기존 AI 컴파일러 대비 최대 5 배의 성능 향상을 달성함을 보여줍니다.
이 논문은 고위험 임상 환경에서 경험적 항생제 처방의 투명성, 감사 가능성 및 보수적 의사결정을 보장하기 위해, 동일한 입력에 대해 동일한 출력을 보장하는 결정론적 규칙 기반 임상 의사결정 지원 시스템의 범위, 거버넌스, 평가 및 거절 조건을 명시적으로 정의하는 프레임워크를 제안합니다.
이 논문은 AI 에이전트의 고유성 식별과 책임 소재를 규명하기 위해 인간 소유주와 연결된 'thin' 정체성과 AI 간 구분을 위한 'thick' 정체성을 요구하며, 이를 해결하기 위해 인간이 소유하고 AI 가 운영하여 법적 주체성을 갖는 새로운 법적 개념인 '알고리즘적 법인 (A-corp)'을 제안합니다.
이 논문은 AI 데이터 전송 시 버퍼 할당, 공유, 수명 주기 관리 및 흐름 제어 등 누락된 레이어를 명시적으로 다루는 'dmaplane'이라는 Linux 커널 모듈을 제안하고, NUMA 인식 할당, RDMA 기반 분산 추론 등 다양한 성능 측정과 엔드투엔드 시나리오를 통해 그 유효성을 입증합니다.
본 논문은 vLLM 과 AMD AITER 런타임을 활용한 AMD Instinct MI325X GPU 클러스터에서의 다양한 LLM 아키텍처 (MoE+MLA, Dense+GQA 등) 에 대한 생산 환경 추론 성능을 종합적으로 벤치마크하고, 아키텍처별 최적화 전략과 메모리 대역폭 병목 현상을 규명한 연구입니다.
이 논문은 제한된 컨텍스트 하에서 장기 실행 에이전트의 필수 정보를 보존하기 위해 중요도 기반 추방과 하이브리드 라우팅을 통합한 계층적 티어드 메모리 시스템 HTM-EAR 을 제안하며, 포화 상태에서도 오라클 수준의 성능을 유지하면서 LRU 와 같은 기존 방식보다 필수 사실의 영구적 손실을 효과적으로 방지함을 입증합니다.
이 논문은 그래프 기반 모델의 성능을 주제와 표현 형식이라는 두 가지 차원에서 종합적으로 평가할 수 있는 새로운 벤치마크를 제안하고, 이를 통해 다양한 최신 모델들의 전이 학습 능력을 심층적으로 분석했습니다.
이 논문은 하드웨어 결함을 악용하여 LLM 기반 에이전트의 최종 출력과 도구 호출을 조작하는 최초의 표적 비트 플립 공격 프레임워크인 'Flip-Agent'를 제안하고, 기존 방법보다 훨씬 효과적인 공격 가능성을 실증합니다.
이 논문은 텍스트, 음성, 시각 모달리티 간의 노이즈를 제거하고 우세한 모달리티의 편향을 완화하기 위해 차분 그래프 어텐션 메커니즘과 적응형 모달리티 균형 메커니즘을 도입한 AMB-DSGDN 모델을 제안하여 다중 모달 대화 감정 인식 성능을 향상시킵니다.
이 논문은 언어 모델의 안전성 평가 시 단일 모델 테스트와 실제 배포 환경 (스캐폴딩) 간의 차이, 특히 평가 형식 (객관식 대 서술형) 이 안전성 점수에 미치는 영향이 더 크며, 모델과 구성에 따라 안전성 결과가 극명하게 달라지므로 개별 모델과 구성별 테스트가 필수적임을 대규모 실험을 통해 규명했습니다.
이 논문은 웨어러블 센서 기반의 인간 활동 인식 (HAR) 에서 새로운 사용자의 데이터에 적응하면서도 기존 지식을 유지하기 위해, 사전 훈련된 특징의 채널별 게이트 조절을 통해 매개변수 효율적으로 catastrophic forgetting 을 해결하는 continual learning 프레임워크를 제안합니다.
이 논문은 모델 가중치 수정 없이 산업용 LLM 의 환각을 줄이고 일관된 결과를 도출하기 위해 제안된 5 가지 프롬프트 엔지니어링 전략을 비교 평가하고, 그 중 데이터 레지스트리 강화 (M4) 가 가장 우수한 성능을 보였으며, 개선된 M2 전략이 가장 큰 향상을 기록했다는 사실을 입증합니다.
이 논문은 Sharpness-Aware Minimization (SAM) 의 기존 구현 방식에 대한 직관적 해석을 제시하고, 근사 오차와 다단계 상승 시의 품질 저하 문제를 해결하기 위해 명시적 방향 추정과 최적화된 탐색 공간을 도입한 새로운 알고리즘인 eXplicit SAM (XSAM) 을 제안하여 기존 방법보다 우수한 일반화 성능을 입증합니다.
이 논문은 랭크 - 스코어 특성 (RSC) 함수와 인지 다양성 (CD) 을 기반으로 한 조합 융합 분석 (CFA) 기법을 적용하여 PyTorch, TensorFlow, Scikit-learn 등 다양한 워크플로우에서 다중 분류 문제를 해결하는 새로운 앙상블 도구인 'InFusionLayer'를 소개하고 그 성능을 검증합니다.
이 논문은 암호화 트래픽 분류에서 시퀀스 기반 접근법의 한계를 지적하고, 프로토콜 정의 semantics 를 구조적 우선순위로 삼아 학습 가능한 필드만 선별하고 메타데이터를 보존하는 표본 기반 자기지도 학습 모델인 FlowSem-MAE 를 제안하여 적은 레이블 데이터로도 최첨단 성능을 달성함을 보여줍니다.
이 논문은 신경 세포 자동자 (NCA) 를 통해 생성된 합성 비언어 데이터를 사전-사전 학습에 활용함으로써, 자연어 학습보다 효율적으로 언어 모델의 성능과 추론 능력을 향상시키는 새로운 접근법을 제시합니다.
이 논문은 정적 의존성 목록에 그치는 기존 SBOM 을 넘어, 런타임 행동과 환경 변화를 실시간으로 포착하고 정책 기반의 자율적 추론을 통해 취약점 평가의 재현성과 정확성을 향상시키는 '에이전트 기반 AIBOM' 프레임워크를 제안하고 그 유효성을 검증합니다.
이 논문은 암호학적 증명 대신 HMAC 서명이 포함된 도구 실행 영수증과 인도 철학의 인식론적 분류를 활용하여 실시간으로 AI 에이전트의 환각을 탐지하는 경량 프레임워크 'NabaOS'를 제안하며, 기존 방법 대비 낮은 지연 시간과 높은 정확도를 달성함을 보여줍니다.
이 논문은 다중 에이전트 시스템의 복잡해지는 메모리 요구사항을 컴퓨터 아키텍처 관점에서 재정의하여 공유 및 분산 메모리 패러다임을 구분하고 3 계층 구조를 제안하며, 특히 다중 에이전트 간 메모리 일관성 문제를 해결해야 할 핵심 과제로 강조합니다.
이 논문은 지식을 최대한 확장하고 (최대 엔트로피) 증거에 의해 반증된 가설만 배제하는 (반증론) 두 원리를 결합하여, 사전 확률을 배제하고 최악의 경우 인식적 무지를 최소화하는 '인지적 지지점 필터 (ESPF)'가 최적의 필터임을 수학적으로 증명하고 궤적 추적 시뮬레이션을 통해 검증합니다.