VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling
이 논문은 2009 년부터 2025 년까지의 15 년간 393 명의 연사 약 2,300 시간 분량의 헤브리어 의회 연설을 포함한 대규모 종단적 음성 데이터셋 'VoxKnesset'을 공개하고, 이를 통해 화자 검증 및 나이 예측 모델의 노화 적응 성능을 평가한 결과를 제시합니다.
1077 편의 논문
이 논문은 2009 년부터 2025 년까지의 15 년간 393 명의 연사 약 2,300 시간 분량의 헤브리어 의회 연설을 포함한 대규모 종단적 음성 데이터셋 'VoxKnesset'을 공개하고, 이를 통해 화자 검증 및 나이 예측 모델의 노화 적응 성능을 평가한 결과를 제시합니다.
이 논문은 LLM 양자화 시 정적인 변환 제약에서 벗어나 토큰별 동적 특성을 반영한 변환 행렬을 도입하여 확산 및 멀티모달 LLM 의 성능을 획기적으로 개선하는 'FreeAct' 프레임워크를 제안합니다.
이 논문은 텍스트 임베딩의 스펙트럼 클러스터링에서 표준 k-NN 그래프의 연결성 부족 문제를 해결하기 위해, 새로운 노드가 기존 노드들과 연결되도록 설계된 점진적 k-NN 그래프 구축 방법을 제안하여 저 k 값 영역에서도 안정적인 클러스터링 성능을 보장함을 보여줍니다.
이 논문은 집합값 집합 함수를 기반으로 한 템플릿 기반 모듈러 인지 모델을 제안하여, 리프어 (Riffian) 를 포함한 다양한 언어에서 명사의 문법적 성 (gender) 이 동적으로 변화하는 패턴을 수학적으로 규명하고 이를 통해 어휘 형성의 새로운 관점을 제시합니다.
이 논문은 선형 RNN(LRNN) 이 비선형 RNN 보다 병렬화가 용이한 이유를 복잡도 클래스 (Log-depth 회로 대 P-완전 문제) 와 오토마타 이론을 통해 이론적으로 규명하고, 다양한 LRNN 변형 간의 정밀한 표현력 차이를 분석하여 표현력과 병렬성 사이의 균형을 잡는 LLM 아키텍처 설계의 기초를 제공합니다.
이 논문은 단일 연구자가 저예산으로 수행한 폴란드어 11B 언어 모델 'Bielik'에 대한 2 비트 양자화 방법들의 체계적 비교 연구를 통해, QuIP# 기반 방법이 IQ2_XXS 베이스라인과 유사한 성능을 유지하면서 고차원 추론 능력은 더 잘 보존하고, 회전 기반 방법의 생성 시 실패 현상을 규명했다는 내용을 담고 있습니다.
이 논문은 에이전트의 검색 전 추론 과정을 함께 활용하는 'Reasoning-Aware Retrieval' 패러다임과 데이터 합성 방법 'DR-Synth'를 제안하여, 기존 모델보다 훨씬 큰 규모의 모델과 BM25 대비 BrowseComp-Plus 벤치마크에서 68% 의 높은 정확도를 달성한 'AgentIR-4B'를 개발했음을 보여줍니다.
이 논문은 실험 프로토타입과 프로덕션 시스템 간의 격차를 해소하기 위해 데이터, 임베딩, 검색 로직을 분리한 모듈식 인프라 'SearchGym'을 제안하고, 하이브리드 검색 오케스트레이션의 최적 순서와 재현성을 보장하는 구성 가능한 설정 시스템을 통해 LitSearch 벤치마크에서 70% 의 Top-100 검색률을 달성함을 보여줍니다.
이 논문은 14 가지 에이전트 설정과 3 개 주요 제공업체의 실행 흔적을 포함한 500 개의 금융 질의로 구성된 'FinRetrieval' 벤치마크를 소개하며, 웹 검색보다 구조화된 데이터 API 를 통한 도구 접근성이 성능에 결정적인 영향을 미친다는 것을 보여줍니다.
본 논문은 16,000 건 이상의 TripAdvisor 리뷰를 분석한 대규모 언어 모델 (LLM) 기반 프레임워크가 기존 지표가 포착하지 못한 항공사 서비스의 미세한 문제와 만족도 하락 원인을 규명하여, 항공 및 관광 산업에 실행 가능한 전략적 통찰을 제공하는 유효한 진단 도구임을 입증합니다.
이 논문은 외부 보상의 한계를 극복하고 환각을 방지하기 위해 지지 증거 유무에 따른 로그 가능도 차이를 최적화하는 대비적 가능도 보상 (CLR) 을 중심으로 한 하이브리드 보상 프레임워크를 제안하여 RAG 모델의 문맥 충실도를 향상시키는 방법을 제시합니다.
본 논문은 유해한 데이터만으로도 문맥적 트리거가 존재할 때만 유해 행동을 보이고 트리거가 없을 때는 안전을 유지하는 '의미론적 격리' 현상이 발생함을 실험을 통해 입증함으로써, benign 데이터의 혼합 없이도 트리거 기반의 유해 미세조정 자체가 치명적인 안전 취약점을 야기할 수 있음을 규명했습니다.
이 논문은 다윈의 '밈' 개념을 도입하여 모델과 데이터의 상호작용을 '지각 행렬'로 분석하는 '밈 탐지' 패러다임을 제시함으로써, 기존 평가 방식이 놓친 LLM 의 복잡한 행동 특성과 숨겨진 능력 구조를 포착할 수 있는 새로운 평가 체계를 제안합니다.
이 논문은 23,404 명의 다양한 인구통계학적 배경을 가진 참가자들과의 자연스러운 대화를 기반으로 한 HUMAINE 프레임워크를 통해 대규모 언어 모델의 인간 선호도를 다차원적으로 평가하고, 모델 성능의 위계와 연령에 따른 선호도 이질성, 그리고 평가 차원별 판별력 차이를 규명했습니다.
이 논문은 영어 중심의 기존 평가 한계를 극복하고 아랍어 언어 모델의 안전성을 체계적으로 평가하기 위해 MLCommons 안전 해저드 분류에 기반한 12 개 범주의 8,170 개 프롬프트로 구성된 'SalamahBench'를 제안하고, 이를 통해 다양한 아랍어 모델의 안전성 편차를 분석하고 전용 안전 장치가 필요함을 입증합니다.
이 논문은 각 토큰의 의미에 따라 압축률을 동적으로 할당하여 기존 방법들보다 높은 압축 비율에서도 우수한 성능을 유지하는 새로운 KV 캐시 압축 프레임워크인 DynaKV 를 제안합니다.
이 논문은 대규모 언어 모델의 복잡한 동역학을 고차 마르코프 과정의 조합적 폭발을 완화하는 가산 다단계 마르코프 체인으로 근사화하고, 이를 단계별 기억 함수 체인과 동등하게 연결하여 '정보 온도' 개념을 확장 적용하는 이론적 프레임워크를 제시합니다.
이 논문은 LLM 이 생성한 텍스트 요약의 의미 평가에 통계적 유사도 이상의 해석적 접근이 필요함을 주장하며, 기호학과 해석학을 기반으로 한 새로운 정성적 평가 지표인 '유도 개념 평가 (ICR)'를 제안하고 이를 통해 LLM 이 인간보다 문맥적 의미 정확도에서 미흡함을 실증적으로 분석했습니다.
이 논문은 RoBERTa 임베딩과 확장된 그래프 합성곱 네트워크를 결합하여 온톨로지 기반의 주의를 도입한 'RoBERTa-OTA' 모델을 제안함으로써, 사회 미디어의 다중 클래스 혐오 표현 탐지 정확도를 기존 방법론 대비 유의미하게 향상시켰음을 보여줍니다.
이 논문은 'Dual Tuning' 프레임워크를 통해 다양한 멀티모달 작업에서 추론의 유익성을 정량화하고 '생각의 경계 (Thinking Boundary)'를 설정함으로써, 모든 작업에 무조건적인 추론을 적용하는 관행에 도전하고 데이터 및 학습 전략을 최적화하는 실용적인 지침을 제시합니다.