AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization
AdaFuse 는 토큰 단위의 사전 게이트링 전략과 커스텀 CUDA 커널 최적화를 통해 동적 어댑터 추론 시 발생하는 CUDA 커널 오버헤드를 해결하여, 정확도 유지하면서 추론 지연 시간을 2.4 배 이상 단축하는 프레임워크를 제안합니다.
3840 편의 논문
AdaFuse 는 토큰 단위의 사전 게이트링 전략과 커스텀 CUDA 커널 최적화를 통해 동적 어댑터 추론 시 발생하는 CUDA 커널 오버헤드를 해결하여, 정확도 유지하면서 추론 지연 시간을 2.4 배 이상 단축하는 프레임워크를 제안합니다.
이 논문은 대규모 모델의 의존 없이 초저지연으로 작동하는 프롬프트 인젝션 탐지를 위해, 엄격한 데이터 기하학적 구조를 기반으로 한 '미러 (Mirror)' 설계 패턴이 모델 규모보다 더 효과적임을 입증합니다.
이 논문은 NVIDIA 의 Minitron 접근 방식을 차용한 구조적 가지치기와 지식 증류, 그리고 정렬 파이프라인을 통해 폴란드어 및 유럽어에 최적화된 110 억 파라미터 모델인 Bielik-11B-v3.0 을 73.5 억 파라미터로 압축하면서도 베이스 모델 성능의 약 90% 를 유지하고 추론 속도를 최대 50% 향상시킨 Bielik-Minitron-7B 모델을 개발한 과정을 상세히 설명합니다.
이 논문은 연속적으로 들어오는 비디오 스트림에서 멀티턴 상호작용을 위한 지속적인 세그먼트 수준의 기억을 보존하고, '보면서 동시에 생각하기' 방식을 통해 온라인 추론 성능을 획기적으로 개선하는 'Think While Watching' 프레임워크를 제안합니다.
이 논문은 에너지 기반 스코링 목적 함수와 엔그레션 (engression) 을 결합하여 파라미터적 가정을 피하면서도 상관관계가 있는 다변량 시계열의 복잡한 결합 예측 분포를 학습하고 일관된 확률적 예측을 생성하는 새로운 딥 생성 트랜스포머 모델인 'EnTransformer'를 제안하고, 다양한 벤치마크 데이터셋에서 기존 모델보다 우수한 성능을 입증합니다.
본 논문은 LLM 이 겉보기에 무해한 작업을 수행할 때 사용자 제공 유해 콘텐츠를 처리하는지 여부를 평가한 결과, 최신 모델조차도 인간 윤리 정렬에 실패하여 유해 정보를 계속 처리하는 경향이 있음을 발견하고, 이를 완화하기 위한 안전 조치 강화의 필요성을 제기합니다.
이 논문은 모바일 기기를 위한 효율적인 커널 생성이 현재 LLM 의 한계로 인해 어렵다는 점을 MobileKernelBench 를 통해 규명하고, 이를 극복하기 위해 제안한 다중 에이전트 시스템 MoKA 가 높은 컴파일 성공률과 성능 개선을 달성했음을 보여줍니다.
이 논문은 ACM SIGCHI, DIS, IUI 등의 컨퍼런스 데이터를 활용해 교차성 기준과 맞춤형 공정성 손실 함수를 도입한 'Fair-PaperRec' 모델을 제안함으로써, 학문적 엄격성을 유지하면서 소수 그룹의 참여율을 42.03% 높이고 전체 효용을 3.16% 개선하는 편향 완화 및 품질 최적화 솔루션을 제시합니다.
이 논문은 자유 텍스트 보고서에서 추출한 다중 모달 지식 기반을 활용하여 시각적 프로토타입을 기반으로 예측을 보정하는 'ProtoSR'을 제안함으로써, 구조화된 방사선 보고서 생성의 정밀도를 혁신적으로 향상시켰습니다.
이 논문은 그래프 신경망의 과압축 (over-squashing) 문제를 해결하기 위해 전역적 신호인 유효 저항을 기반으로 간선을 재배치하는 '유효 저항 재배선 (ERR)' 방법을 제안하고, 이를 통해 장기 의존성 학습을 개선하면서도 과부드러짐 (oversmoothing) 과의 균형을 맞추기 위해 정규화 기법과 결합할 때 최적의 성능을 얻을 수 있음을 보여줍니다.
이 논문은 확률적 회로 (PC) 의 데이터 매니폴드 국소 기하학적 구조를 포착하기 위해 보로노이 테셀레이션을 도입하되, 이로 인한 계산 복잡성 문제를 해결하기 위해 근사 추론 프레임워크와 정확한 추론이 가능한 구조적 조건을 제안하고 미분 가능한 완화 기법을 통해 학습을 가능하게 합니다.
이 논문은 트리거 노출과 악성 행동 발생 사이의 시간적 간격을 활용하여 일상적인 단어를 트리거로 사용하는 '지연 백도어 공격 (DBA)'을 제안하고, 이를 통해 기존 방어 기법을 우회하며 높은 공격 성공률을 보이는 새로운 취약점을 입증했습니다.
이 논문은 다양한 센서 설정에 걸쳐 일반화 가능한 언어 정렬 표현을 학습하기 위해 대조적 정렬과 센서 조건부 캡션링을 통합하고, 사전 학습된 언어 모델을 활용하여 재학습 없이도 가변적인 시간 해상도와 입력 길이를 지원하는 오픈 소스 프레임워크인 SLIP을 제안합니다.
이 논문은 ABAW 10th 챌린지용 다중 모달 감정 인식 프레임워크를 제안하여, CLIP 과 Wav2Vec 2.0 을 기반으로 한 시공간적 모델링과 양방향 교차 주의 메커니즘을 통해 자유 환경에서의 감정 인식 성능을 향상시켰습니다.
이 논문은 인간 실험 설계를 다중 에이전트 AI 환경으로 체계적으로 번역하는 '규범적 공통 기반 복제 (NormCoRe)' 방법론을 제안하여, AI 에이전트 간 규범 형성 역학을 인간 기준과 비교 분석할 수 있는 새로운 틀을 마련합니다.
이 논문은 가정용 로봇의 안전성을 평가하기 위해 물리 시뮬레이션과 비디오 생성을 결합한 'HomeSafe-Bench' 벤치마크와 실시간 안전 감시를 위한 계층적 'HD-Guard' 아키텍처를 제안하며, 현재 비전 - 언어 모델의 안전 감지 한계를 분석하고 효율성과 정확성 간의 균형을 달성하는 방안을 제시합니다.
이 논문은 실험실 환경의 안전 위험 식별과 안전 중추 추론 능력을 평가하기 위해 OSHA 및 GHS 기준에 기반한 다중 모달 벤치마크인 'LABSHIELD'를 제안하고, 현재 모델들이 일반 영역에 비해 실험실 안전 시나리오에서 성능이 크게 저하됨을 규명했습니다.
이 논문은 NLI 기반 크로스-인코더, 임베딩 모델, 리랭커, 그리고 지시 튜닝 LLM 등 다양한 아키텍처의 제로샷 텍스트 분류 능력을 공정하게 평가하기 위해 22 개의 데이터셋으로 구성된 벤치마크 'BTZSC'를 제안하고, 현대 리랭커가 새로운 최첨단 성능을 달성했으며 임베딩 모델이 정확도와 지연 시간 간 최적의 균형을 보인다는 결과를 제시합니다.
이 논문은 수천 명의 클라이언트를 효율적으로 지원하기 위해 개의 개별 모델 대신 개의 공유 서버 모델을 최적화하는 'Few-for-Many' 프레임워크를 제안하고, 이를 통해 자동적으로 모델 다양성을 발견하며 기존 최첨단 방법보다 뛰어난 개인화 성능을 달성하는 'FedFew' 알고리즘을 제시합니다.
이 논문은 강화학습 미세조정 (RFT) 이가 환경 내 작업 난이도 변화에는 잘 일반화되지만, 관찰 및 행동 인터페이스가 다른 미지의 환경으로의 전이에는 한계가 있음을 밝히고, 순차적 학습과 혼합 학습을 통해 전이 성능을 향상시키고 망각을 최소화할 수 있음을 실증적으로 제시합니다.