MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs
이 논문은 이슬람 상속법의 복잡한 추론 과정을 평가하기 위해 12,500 개의 아랍어 사례로 구성된 대규모 데이터셋 'MAWARITH'와 단계별 추론을 점수화하는 새로운 평가 지표 'MIR-E'를 제안하고, 이를 통해 다양한 대형 언어 모델의 성능을 분석했습니다.
1071 편의 논문
이 논문은 이슬람 상속법의 복잡한 추론 과정을 평가하기 위해 12,500 개의 아랍어 사례로 구성된 대규모 데이터셋 'MAWARITH'와 단계별 추론을 점수화하는 새로운 평가 지표 'MIR-E'를 제안하고, 이를 통해 다양한 대형 언어 모델의 성능을 분석했습니다.
이 논문은 대규모 학습 데이터 없이 음운 규칙과 다국어 TTS 모델을 결합하여 스페인어 및 인도식 영어 억양을 음소 수준에서 정밀하게 제어하고 생성하는 새로운 프레임워크를 제안합니다.
이 논문은 디지털 소외를 겪고 있는 네팔어 (뉴아리) 를 위한 최초의 말뭉치 'Nwāchā Munā'를 구축하고, 대규모 다국어 모델과 유사한 성능을 내는 지리·언어적으로 인접한 네팔어 기반의 전이 학습이 초저자원 자동음성인식 분야에서 효율적인 대안이 될 수 있음을 입증했습니다.
이 논문은 제 3 자 API 의 변경으로 인한 기존 코드 유지보수 문제를 해결하기 위해, 정적 및 동적 API 그래프를 구축하여 진화 경로를 검색하고 이를 기반으로 코드를 생성하는 지식 그래프 기반의 진화적 코드 생성 프레임워크 'KCoEvo'를 제안합니다.
이 논문은 대화 중 화자의 말하기 스타일 (감정, 속도, 음량, 피치) 강도를 체계적으로 평가하기 위한 멀티턴 대화 벤치마크인 'StyleBench'를 제안하고, 주요 음성 언어 모델과 올모드 언어 모델 간의 성능 격차와 그 원인을 분석합니다.
이 논문은 문서 구조를 보존하는 계층적 인덱싱, LLM 기반 쿼리 계획, 그리고 앙상블 추론을 통해 정밀한 인용이 요구되는 기술적 질문에 대한 답변 정확도와 일관성을 극대화하여 WattBot 2025 챌린지 1 위를 차지한 새로운 RAG 프레임워크 'KohakuRAG'를 제안합니다.
이 논문은 메모리, 통신, 연산의 통합 최적화 및 다양한 병렬화 기법을 통해 MoE 모델의 확장성 문제를 해결하고, NVIDIA GB200/GB300 클러스터에서 높은 성능을 달성한 Megatron Core 기반의 실용적인 오픈소스 솔루션을 제시합니다.
이 논문은 다양한 표현 방식과 CoT 기법을 적용하여 Llama-3 시리즈 및 ChatGPT 등 대규모 언어 모델의 이산 최적화 문제 해결 능력을 평가하고, 모델 성능의 불안정성과 데이터 증강의 효과를 분석하여 자동화 해결을 위한 실용적 지침과 벤치마크를 제시합니다.
이 논문은 비전 - 언어 모델의 공간 지능 격차를 해소하기 위해 공학적 인지에 기반한 '시뮬레이션 및 추론' 메커니즘을 도입하여 정사각도 (Orthographic Views) 를 기반으로 한 3 차원 공간 추론 프레임워크인 3ViewSense 를 제안하고, 이를 통해 가림 현상이 심한 장면에서의 객체 계수 및 일관된 공간 추론 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 PCA 화이트닝 기법을 적용하여 임베딩 공간에서 클러스터 일관성이 환각 유형을 구분하는 기하학적 분리자임을 규명하고, GPT-2-small 모델에서 Type 1 과 Type 2 환각의 구분이 측정 오류가 아닌 모델 용량의 한계임을 증명하며, 마이크로 시그널 영역에서의 프롬프트 세트 민감성을 확인했습니다.
이 논문은 하이브리드 RoBERTa 인코더와 LLM 을 예측 수준에서 앙상블 학습하여 SemEval-2026 태스크 3 의 다차원 어휘 기반 감정 회귀 과제에서 RMSE 를 크게 줄이고 상관관계 점수를 향상시킨 QuadAI 시스템을 제시합니다.
이 논문은 다중 코어 CPU 환경에서 NUMA 노드 간 메모리 접근 오버헤드를 줄이고 추론 처리량을 최대 46% 향상시키기 위해 ArcLight 라는 경량 LLM 추론 아키텍처를 제안합니다.
이 논문은 현대 코딩 모델의 학습 병목 현상을 해결하기 위해 조건부 트렁케이션 마스킹, 다양성 기반 온도 선택, KL 손실 제거 등 세 가지 혁신을 도입한 MicroCoder-GRPO 알고리즘과 더 까다로운 학습 데이터셋, 그리고 정밀한 평가 프레임워크를 제안하여 강력한 베이스라인 대비 LiveCodeBench v6 에서 최대 17.6% 의 상대적 성능 향상을 달성했다고 요약할 수 있습니다.
이 논문은 자동 난이도 필터링을 포함한 4 단계 데이터 처리 프레임워크를 통해 최신의 고난이도 프로그래밍 문제만 선별한 'MicroCoder' 데이터셋을 구축하고, 이를 통해 기존 데이터셋 대비 훨씬 큰 성능 향상을 이끌어낸 Reinforcement Learning 기반 코딩 모델 학습 방법을 제안합니다.
이 논문은 네팔 문화적 맥락에서 7 개의 최신 대규모 언어 모델을 대상으로 '이중 지표 편향 평가 (DMBA)' 프레임워크를 적용하여 명시적 동의 편향과 암시적 생성 편향을 분석한 결과, 두 편향 지표 간 상관관계가 약하며 생성 편향이 온도 설정에 따라 비선형적으로 변화함을 규명했습니다.
이 논문은 퀘벡 보험 분야의 '권고 격차'를 해결하기 위해 AEPC-QA 벤치마크를 구축하고 51 개의 대규모 언어 모델을 평가한 결과, 추론 시간 추론의 우위, 검색 증강 생성 (RAG) 의 양면적 효과, 그리고 일반 대형 모델이 도메인 특화 모델보다 우수한 '전문화 역설' 등 세 가지 핵심 통찰을 도출했습니다.
이 논문은 'DistillGuard' 프레임워크를 통해 LLM 지식 증류 공격에 대한 다양한 방어 기법을 평가한 결과, 현재 제안된 출력 수준 방어책은 대부분 효과가 미미하며 방어 효율은 작업 유형에 크게 의존한다는 점을 밝혔습니다.
이 논문은 입력, 구조, 상태, 출력이라는 네 가지 제어 표면을 통해 다양한 조향 방법을 통합하고 평가할 수 있는 오픈소스 파이썬 라이브러리인 'AI Steerability 360' 툴킷을 소개합니다.
이 논문은 라벨이 없는 미지의 데이터셋에서도 Text2SQL 모델의 정확도를 참조 레이블 없이 추정할 수 있는 새로운 평가 프레임워크인 FusionSQL 을 제안하고, 이를 통해 배포 전 검증 및 지속적인 품질 모니터링이 가능함을 실험을 통해 입증합니다.
이 논문은 강화학습만으로는 심층 탐사가 부족할 수 있는 연구 에이전트의 한계를 극복하기 위해, 합성된 탐색 궤적을 활용한 냉각 시작 감독 미세 조정 (SFT) 프레임워크인 SynPlanResearch-R1 을 제안하여 최신 기법 대비 성능을 크게 향상시켰다고 요약할 수 있습니다.