Explainable LLM Unlearning Through Reasoning
이 논문은 기존 LLM 언러닝 기법의 한계를 극복하고 일반 성능 저하 없이 정확하고 설명 가능한 지식 제거를 실현하기 위해 추론 기반 목표를 활용한 '타겟 추론 언러닝 (TRU)'을 제안하고 그 유효성을 입증합니다.
4581 편의 논문
이 논문은 기존 LLM 언러닝 기법의 한계를 극복하고 일반 성능 저하 없이 정확하고 설명 가능한 지식 제거를 실현하기 위해 추론 기반 목표를 활용한 '타겟 추론 언러닝 (TRU)'을 제안하고 그 유효성을 입증합니다.
이 논문은 이기종 엣지 환경에서 MoE 모델의 추론 성능을 향상시키기 위해, 메모리 관리를 위한 정보적 사전 탐색 센서로서 스펙큘레이티브 디코딩을 활용하는 MoE-SpAc 프레임워크를 제안하고, 이를 통해 기존 기법 대비 4.04 배의 속도 향상을 달성했음을 보여줍니다.
이 논문은 강화학습으로 탐색된 고품질 특성 변환 시퀀스를 기반으로 경험 라이브러리를 진화시키고 다양성 인식 선택기를 통해 컨텍스트를 최적화함으로써, 기존 LLM 기반 특성 변환 방법의 한계를 극복하고 다양한 태블러 데이터셋에서 더 높은 성능과 안정성을 달성하는 새로운 프레임워크를 제안합니다.
이 논문은 기관별 데이터에 맞춰 학습된 대규모 언어 모델 대화 시스템 'TAMUSA-Chat'의 아키텍처, 학습 방법론, 그리고 책임 있는 배포 전략을 제시하며, 학술 기관이 투명성과 거버넌스를 준수하며 전문적인 AI 시스템을 구축할 수 있는 프레임워크를 제안합니다.
이 논문은 터키어 계승 언어 교육의 맥락에서 데이터 프라이버시와 신뢰성 문제를 해결하기 위해 오프라인 LLM 의 견고성과 교육적 안전성을 평가한 결과, 8B~14B 파라미터 범위의 추론 중심 모델이 비용과 안전성 간의 가장 균형 잡힌 선택임을 밝혔습니다.
이 논문은 대규모 언어 모델이 다음 토큰 예측 학습을 통해 어떻게 시맨틱 프롬프트 이해, 문맥 내 학습 (ICL), 그리고 사고의 연쇄 (CoT) 와 같은 고급 능력을 획득하는지에 대한 이론적 메커니즘을 규명하고, 이러한 프롬프트 기법들이 통계적으로 왜 우수한 성능을 보이는지 설명합니다.
이 논문은 위키데이터와 전문가 지식을 활용하여 라틴아메리카의 다양한 사회문화적 편향을 평가할 수 있는 26,000 개 이상의 다국어 질문 - 답변 데이터셋 (LatamQA) 을 구축하고, 이를 통해 대규모 언어 모델이 라틴아메리카 문화보다 이베리아 스페인 문화에 더 치우친 편향을 보이며 언어와 지역에 따라 성능 편차가 있음을 규명했습니다.
이 논문은 자연어 프롬프트로 스프레드시트 작업장을 생성하는 LLM 의 성능을 평가하기 위해 블라인드 쌍대 비교 방식을 도입한 'SpreadsheetArena' 플랫폼을 소개하고, 사용 사례에 따라 선호되는 스프레드시트의 특성이 크게 달라지며 도메인별 모범 사례와 정렬되지 않는 경우가 많음을 규명합니다.
이 논문은 LLM 의 기작적 탐지 접근법이 '거짓말'과 '기만'을 동일시하는 한계를 지적하며, 사실적 진술이 아닌 오해의 소지가 있는 표현으로 이루어지는 비거짓말 기만 행위가 기존 진실 탐지기로는 포착되지 않는다는 실험적 증거를 제시하고, 향후 탐지 기술의 고도화를 위한 새로운 방향을 제안합니다.
이 논문은 GATech 팀이 아랍어 AI 생성 텍스트 탐지 과제에서 복잡한 풀링 전략보다 단순한 평균 풀링이 제한된 데이터 환경에서 더 뛰어난 성능 (F1 0.75) 을 보였으며, 인간 작성 텍스트가 기계 생성 텍스트보다 일반적으로 길다는 패턴을 발견했다고 보고합니다.
이 논문은 82 개 아랍어 의료 분류 태스크에서 아랍어 특화 양방향 인코더 (AraBERTv2) 가 다음 토큰 예측에 최적화된 인과적 디코더보다 정밀한 의미 경계 포착과 전반적인 성능에서 우월함을 입증했습니다.
이 논문은 기존 GRPO 의 한계를 극복하고 이질적인 사용자 선호도를 효과적으로 정렬하기 위해, 그룹별 보상 이력을 기반으로 이득을 정규화하는 새로운 프레임워크인 '개인화 GRPO(P-GRPO)'를 제안하고 그 유효성을 입증합니다.
이 논문은 AI 규제에서 모호한 'AI 모델'과 'AI 시스템'의 경계 문제를 해결하기 위해 학술 및 규제 문헌을 분석하고, 모델을 '학습된 매개변수와 아키텍처'로, 시스템을 '모델과 입출력 처리 구성요소를 포함한 전체'로 정의함으로써 규제 책임 소재를 명확히 하는 프레임워크를 제안합니다.
이 논문은 물리적 전파 특성을 반영한 희소 시공간 어텐션 메커니즘과 물리 기반 마스킹 전략을 통해 이동성 환경에서의 채널 진화를 포착하고 다양한 하위 작업에 적용 가능한 범용 무선 채널 임베딩을 학습하는 새로운 대형 무선 모델인 LWM-Temporal 을 제안합니다.
이 논문은 제한된 컨텍스트 하에서 장기 실행 에이전트의 필수 정보를 보존하기 위해 중요도 기반 추방과 하이브리드 라우팅을 통합한 계층적 티어드 메모리 시스템 HTM-EAR 을 제안하며, 포화 상태에서도 오라클 수준의 성능을 유지하면서 LRU 와 같은 기존 방식보다 필수 사실의 영구적 손실을 효과적으로 방지함을 입증합니다.
Tureis 는 스마트 홈 IoT 환경에서 라벨 없이 자가 지도 학습을 통해 다중 고장과 다중 거주자 상황을 실시간으로 감지하고 정밀하게 국소화할 수 있는 경량 트랜스포머 기반의 통합 복원력 프레임워크입니다.
이 논문은 NetSecGame 환경에서 IP 주소 재배치와 같은 미세한 변화가 자율 공격 에이전트의 일반화 능력을 어떻게 저해하는지 평가하고, 기존 강화학습 및 적응형 에이전트보다 추론 비용과 투명성 문제가 있음에도 불구하고 프롬프트 기반 사전 훈련 LLM 에이전트가 가장 높은 성공률을 보였음을 밝혔습니다.
이 논문은 언어 모델의 안전성 평가 시 단일 모델 테스트와 실제 배포 환경 (스캐폴딩) 간의 차이, 특히 평가 형식 (객관식 대 서술형) 이 안전성 점수에 미치는 영향이 더 크며, 모델과 구성에 따라 안전성 결과가 극명하게 달라지므로 개별 모델과 구성별 테스트가 필수적임을 대규모 실험을 통해 규명했습니다.
이 논문은 웨어러블 센서 기반의 인간 활동 인식 (HAR) 에서 새로운 사용자의 데이터에 적응하면서도 기존 지식을 유지하기 위해, 사전 훈련된 특징의 채널별 게이트 조절을 통해 매개변수 효율적으로 catastrophic forgetting 을 해결하는 continual learning 프레임워크를 제안합니다.
이 논문은 Sharpness-Aware Minimization (SAM) 의 기존 구현 방식에 대한 직관적 해석을 제시하고, 근사 오차와 다단계 상승 시의 품질 저하 문제를 해결하기 위해 명시적 방향 추정과 최적화된 탐색 공간을 도입한 새로운 알고리즘인 eXplicit SAM (XSAM) 을 제안하여 기존 방법보다 우수한 일반화 성능을 입증합니다.