Explainable LLM Unlearning Through Reasoning
이 논문은 기존 LLM 언러닝 기법의 한계를 극복하고 일반 성능 저하 없이 정확하고 설명 가능한 지식 제거를 실현하기 위해 추론 기반 목표를 활용한 '타겟 추론 언러닝 (TRU)'을 제안하고 그 유효성을 입증합니다.
4298 편의 논문
이 논문은 기존 LLM 언러닝 기법의 한계를 극복하고 일반 성능 저하 없이 정확하고 설명 가능한 지식 제거를 실현하기 위해 추론 기반 목표를 활용한 '타겟 추론 언러닝 (TRU)'을 제안하고 그 유효성을 입증합니다.
이 논문은 아랍어에 ModernBERT 아키텍처를 적용하고 트랜스토크나이제이션 초기화 및 최대 8,192 토큰의 긴 컨텍스트 모델링을 통해 언어 모델링 성능과 다양한 다운스트림 태스크에서의 전이 능력을 크게 향상시킨 'AraModernBERT'를 제안합니다.
이 논문은 이기종 엣지 환경에서 MoE 모델의 추론 성능을 향상시키기 위해, 메모리 관리를 위한 정보적 사전 탐색 센서로서 스펙큘레이티브 디코딩을 활용하는 MoE-SpAc 프레임워크를 제안하고, 이를 통해 기존 기법 대비 4.04 배의 속도 향상을 달성했음을 보여줍니다.
본 논문은 4 개의 최신 대규모 언어 모델을 대상으로 한 실증 연구를 통해, 성능이 낮은 모델일수록 자신의 능력을 과대평가하는 인간 고유의 '더닝-크루거 효과'와 유사한 과도한 자신감 편향을 보임을 확인하고, 이를 고위험 환경에서의 안전한 LLM 배포에 중요한 시사점으로 제시했습니다.
이 논문은 의료 교과서 기반 질문응답에서 LLaMA-70B-Instruct 모델의 환각 발생률 (19.7%) 을 측정하고, 환각률이 낮을수록 임상 전문가의 유용성 평가가 높아지는 경향이 있음을 규명했습니다.
이 논문은 강화학습으로 탐색된 고품질 특성 변환 시퀀스를 기반으로 경험 라이브러리를 진화시키고 다양성 인식 선택기를 통해 컨텍스트를 최적화함으로써, 기존 LLM 기반 특성 변환 방법의 한계를 극복하고 다양한 태블러 데이터셋에서 더 높은 성능과 안정성을 달성하는 새로운 프레임워크를 제안합니다.
이 논문은 GPT-2 Small 의 간접 객체 식별 (IOI) 태스크에서 활성화 패칭을 통해 인과적으로 중요한 어텐션 헤드를 식별하고, 이를 기반으로 생성된 자연어 설명의 충실도를 평가하여 기계적 해석 가능성과 인간이 이해할 수 있는 설명 사이의 간극을 해소하는 파이프라인을 제시합니다.
이 논문은 대규모 언어 모델의 환각 관련 행동을 사용자 관점에서 신속하고 해석 가능하게 평가하기 위해 기존 심리측정 도구에 영감을 받아 개발된 경량화된 인간 중심 측정 도구인 '시스템 환각 척도 (SHS)'를 제안하고, 210 명을 대상으로 한 실증 평가를 통해 높은 신뢰도와 타당성을 입증했습니다.
이 논문은 LLaMA-3.1-8B-Instruct 를 활용한 구문 분할과 Legal-Roberta-Large 를 적용한 조항 분류로 구성된 2 단계 아키텍처를 제안하여, 다양한 형식의 비공개계약서 (NDA) 분석을 자동화하고 높은 정확도를 달성했음을 보여줍니다.
이 논문은 poultry 관련 텍스트의 정서 분석을 위해 도메인 특화 임베딩과 게이트드 크로스 어텐션 메커니즘을 결합한 이중 스트림 트랜스포머 아키텍처인 PoultryLeX-Net 을 제안하며, 기존 모델 대비 97.35% 의 정확도와 99.61% 의 AUC-ROC 를 기록한 우수한 성능을 입증했습니다.
이 논문은 기관별 데이터에 맞춰 학습된 대규모 언어 모델 대화 시스템 'TAMUSA-Chat'의 아키텍처, 학습 방법론, 그리고 책임 있는 배포 전략을 제시하며, 학술 기관이 투명성과 거버넌스를 준수하며 전문적인 AI 시스템을 구축할 수 있는 프레임워크를 제안합니다.
이 논문은 화용론적 추론 능력을 평가하기 위해 다양한 상황과 권력 관계를 반영한 300 개의 인간 검증 시나리오로 구성된 '맥락적 정서 추론 (CEI)' 벤치마크를 제안합니다.
이 논문은 대형 언어 모델이 형용사 - 명사 조합성을 내부 표현 수준에서는 잘 학습하지만, 실제 기능적 과업 수행에서는 일관된 성공을 보이지 않는다는 괴리를 발견하고, 이를 통해 모델 능력을 종합적으로 이해하기 위해 대비적 평가의 중요성을 강조합니다.
이 논문은 50 개의 행동 면접 데이터로 수행된 실험을 통해, 자동화된 체인 오브 씽킹 (Chain-of-Thought) 프롬프팅보다 인간 개입 (Human-in-the-Loop) 방식이 후보자의 자신감과 진정성 향상, 그리고 더 적은 반복 횟수로 더 높은 면접 답변 품질을 달성함을 입증했습니다.
이 논문은 터키어 계승 언어 교육의 맥락에서 데이터 프라이버시와 신뢰성 문제를 해결하기 위해 오프라인 LLM 의 견고성과 교육적 안전성을 평가한 결과, 8B~14B 파라미터 범위의 추론 중심 모델이 비용과 안전성 간의 가장 균형 잡힌 선택임을 밝혔습니다.
이 논문은 GPT 모델의 세대 간 '공감 능력'은 통계적으로 유의미한 차이가 없으나, 위기 상황 감지 능력은 향상되고 조언의 안전성은 저하되는 등 안전성 태도가 변화했으며, 사용자들이 느끼는 공감 상실은 이러한 안전성 조정의 결과임을 임상적 평가를 통해 규명했습니다.
이 논문은 자동화된 기계 학습 프레임워크를 활용하여 구글 번역과 GPT-4, GPT-4o, DeepSeek 등 다양한 대형 언어 모델의 중국어 (현대 및 고전 문학, 뉴스 포함) 에서 영어 번역 품질을 평가한 결과, 뉴스 번역에서는 우수한 성능을 보였으나 문화적 뉘앙스나 고전적 표현이 포함된 문학 텍스트 번역에서는 여전히 한계가 있음을 밝혔습니다.
이 논문은 무인 항공기의 안전 평가 및 규제 준수를 지원하기 위해 권위 있는 규제 문서에 기반한 검색 증강 언어 어시스턴트를 설계하고 검증하여, 생성 모델의 오류를 방지하고 추적 가능한 증명을 제공함으로써 인간 전문가의 판단을 보조하는 체계를 제안합니다.
이 논문은 위키데이터와 전문가 지식을 활용하여 라틴아메리카의 다양한 사회문화적 편향을 평가할 수 있는 26,000 개 이상의 다국어 질문 - 답변 데이터셋 (LatamQA) 을 구축하고, 이를 통해 대규모 언어 모델이 라틴아메리카 문화보다 이베리아 스페인 문화에 더 치우친 편향을 보이며 언어와 지역에 따라 성능 편차가 있음을 규명했습니다.
이 논문은 자연어 프롬프트로 스프레드시트 작업장을 생성하는 LLM 의 성능을 평가하기 위해 블라인드 쌍대 비교 방식을 도입한 'SpreadsheetArena' 플랫폼을 소개하고, 사용 사례에 따라 선호되는 스프레드시트의 특성이 크게 달라지며 도메인별 모범 사례와 정렬되지 않는 경우가 많음을 규명합니다.