There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective
이 논문은 터키어 계승 언어 교육의 맥락에서 데이터 프라이버시와 신뢰성 문제를 해결하기 위해 오프라인 LLM 의 견고성과 교육적 안전성을 평가한 결과, 8B~14B 파라미터 범위의 추론 중심 모델이 비용과 안전성 간의 가장 균형 잡힌 선택임을 밝혔습니다.
8398 편의 논문
이 논문은 터키어 계승 언어 교육의 맥락에서 데이터 프라이버시와 신뢰성 문제를 해결하기 위해 오프라인 LLM 의 견고성과 교육적 안전성을 평가한 결과, 8B~14B 파라미터 범위의 추론 중심 모델이 비용과 안전성 간의 가장 균형 잡힌 선택임을 밝혔습니다.
이 논문은 GPT 모델의 세대 간 '공감 능력'은 통계적으로 유의미한 차이가 없으나, 위기 상황 감지 능력은 향상되고 조언의 안전성은 저하되는 등 안전성 태도가 변화했으며, 사용자들이 느끼는 공감 상실은 이러한 안전성 조정의 결과임을 임상적 평가를 통해 규명했습니다.
이 논문은 자동화된 기계 학습 프레임워크를 활용하여 구글 번역과 GPT-4, GPT-4o, DeepSeek 등 다양한 대형 언어 모델의 중국어 (현대 및 고전 문학, 뉴스 포함) 에서 영어 번역 품질을 평가한 결과, 뉴스 번역에서는 우수한 성능을 보였으나 문화적 뉘앙스나 고전적 표현이 포함된 문학 텍스트 번역에서는 여전히 한계가 있음을 밝혔습니다.
이 논문은 무인 항공기의 안전 평가 및 규제 준수를 지원하기 위해 권위 있는 규제 문서에 기반한 검색 증강 언어 어시스턴트를 설계하고 검증하여, 생성 모델의 오류를 방지하고 추적 가능한 증명을 제공함으로써 인간 전문가의 판단을 보조하는 체계를 제안합니다.
이 논문은 위키데이터와 전문가 지식을 활용하여 라틴아메리카의 다양한 사회문화적 편향을 평가할 수 있는 26,000 개 이상의 다국어 질문 - 답변 데이터셋 (LatamQA) 을 구축하고, 이를 통해 대규모 언어 모델이 라틴아메리카 문화보다 이베리아 스페인 문화에 더 치우친 편향을 보이며 언어와 지역에 따라 성능 편차가 있음을 규명했습니다.
이 논문은 자연어 프롬프트로 스프레드시트 작업장을 생성하는 LLM 의 성능을 평가하기 위해 블라인드 쌍대 비교 방식을 도입한 'SpreadsheetArena' 플랫폼을 소개하고, 사용 사례에 따라 선호되는 스프레드시트의 특성이 크게 달라지며 도메인별 모범 사례와 정렬되지 않는 경우가 많음을 규명합니다.
이 논문은 과거 프레임 임베딩에서 추출한 의미 정보를 지식 증류로 학습된 컨텍스트 모듈을 통해 신경 전사기에 주입함으로써, 제한된 미래 컨텍스트 환경에서 스트리밍 자동 음성 인식 (ASR) 의 성능을 향상시키는 SENS-ASR 을 제안합니다.
이 논문은 82 개 아랍어 의료 분류 태스크에서 아랍어 특화 양방향 인코더 (AraBERTv2) 가 다음 토큰 예측에 최적화된 인과적 디코더보다 정밀한 의미 경계 포착과 전반적인 성능에서 우월함을 입증했습니다.
이 논문은 기존 GRPO 의 한계를 극복하고 이질적인 사용자 선호도를 효과적으로 정렬하기 위해, 그룹별 보상 이력을 기반으로 이득을 정규화하는 새로운 프레임워크인 '개인화 GRPO(P-GRPO)'를 제안하고 그 유효성을 입증합니다.
이 논문은 수평적, 수직적, 메타 확장을 통해 다중 모달 적대적 대화를 생성하고 기존 자동화된 레드 테이밍 접근법보다 우수한 성능을 보이는 'FERRET' 프레임워크를 제안합니다.
이 논문은 군용 대규모 언어 모델 (LLM) 의 과도한 거부 행위를 평가하기 위해 군인 전문가들이 구축한 새로운 벤치마크를 제시하고, 'Heretic' 라이브러리를 통한 제동 해제 실험을 통해 거부율을 획기적으로 낮추는 동시에 군사 임무 정확도를 유지하는 방법론을 논의합니다.
본 논문은 5 개의 대규모 언어 모델을 대상으로 사법 판결 지원 맥락에서 '덕스러운 피해자 효과'와 '후광 효과'가 인간과 유사하게 나타나는지 실험한 결과, 모델 간 편차는 있으나 인간 기준 대비 소폭 개선된 편향을 보였음을 밝혔습니다.
이 논문은 대규모 언어 모델 (LLM) 의 사용자의 견해에 미치는 영향을 평가하기 위해 deliberative opinion polling 과정을 표준으로 삼은 'DeliberationBench'를 제안하고, 4,088 명의 미국 참가자를 대상으로 한 실험을 통해 해당 모델들이 민주적으로 정당한 기준에 부합하며 사용자의 자율성을 해치지 않는 긍정적인 인식적 영향을 미친다는 것을 입증했습니다.
본 논문은 AI 가 신격화되어 'GPTheology'라는 새로운 기술 종교가 등장하는 현상을 분석하고, 온라인 커뮤니티와 실제 사례를 통해 AI 와 종교의 결합이 가져오는 철학적, 사회적, 윤리적 함의를 조명합니다.
이 논문은 AI 규제에서 모호한 'AI 모델'과 'AI 시스템'의 경계 문제를 해결하기 위해 학술 및 규제 문헌을 분석하고, 모델을 '학습된 매개변수와 아키텍처'로, 시스템을 '모델과 입출력 처리 구성요소를 포함한 전체'로 정의함으로써 규제 책임 소재를 명확히 하는 프레임워크를 제안합니다.
이 논문은 AI 가속기에서 캐스케이드 축소 연산 (cascaded reductions) 을 자동으로 단일 루프로 융합하여 최적화된 커널을 생성하는 'RedFuser' 프레임워크를 제안하며, 기존 AI 컴파일러 대비 최대 5 배의 성능 향상을 달성함을 보여줍니다.
이 논문은 고위험 임상 환경에서 경험적 항생제 처방의 투명성, 감사 가능성 및 보수적 의사결정을 보장하기 위해, 동일한 입력에 대해 동일한 출력을 보장하는 결정론적 규칙 기반 임상 의사결정 지원 시스템의 범위, 거버넌스, 평가 및 거절 조건을 명시적으로 정의하는 프레임워크를 제안합니다.
이 논문은 AI 에이전트의 고유성 식별과 책임 소재를 규명하기 위해 인간 소유주와 연결된 'thin' 정체성과 AI 간 구분을 위한 'thick' 정체성을 요구하며, 이를 해결하기 위해 인간이 소유하고 AI 가 운영하여 법적 주체성을 갖는 새로운 법적 개념인 '알고리즘적 법인 (A-corp)'을 제안합니다.
이 논문은 AI 데이터 전송 시 버퍼 할당, 공유, 수명 주기 관리 및 흐름 제어 등 누락된 레이어를 명시적으로 다루는 'dmaplane'이라는 Linux 커널 모듈을 제안하고, NUMA 인식 할당, RDMA 기반 분산 추론 등 다양한 성능 측정과 엔드투엔드 시나리오를 통해 그 유효성을 입증합니다.
본 논문은 vLLM 과 AMD AITER 런타임을 활용한 AMD Instinct MI325X GPU 클러스터에서의 다양한 LLM 아키텍처 (MoE+MLA, Dense+GQA 등) 에 대한 생산 환경 추론 성능을 종합적으로 벤치마크하고, 아키텍처별 최적화 전략과 메모리 대역폭 병목 현상을 규명한 연구입니다.