MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages
이 논문은 306 개 언어로 구성된 122 만 건 이상의 대규모 읽기 comprehension 벤치마크인 'MultiWikiQA'를 소개하고, LLM 기반 질문 생성 및 인간 평가를 통해 데이터의 품질과 다양한 언어 모델 간의 성능 격차를 입증했습니다.
1726 편의 논문
이 논문은 306 개 언어로 구성된 122 만 건 이상의 대규모 읽기 comprehension 벤치마크인 'MultiWikiQA'를 소개하고, LLM 기반 질문 생성 및 인간 평가를 통해 데이터의 품질과 다양한 언어 모델 간의 성능 격차를 입증했습니다.
이 논문은 문서 이해를 위한 비전 - 언어 모델의 계산 부하를 줄이기 위해 비텍스트 영역을 제거하고 텍스트 영역의 공간적 일관성을 강화하는 경량 토큰 가지치기 프레임워크를 제안하고, 이를 통해 계산 비용을 크게 절감하면서도 정확도를 유지함을 실험을 통해 입증했습니다.
이 논문은 GUI 내 토글 제어의 신뢰성 문제를 해결하기 위해 현재 상태를 인식하고 추론하여 행동하는 'StaR(State-aware Reasoning)' 방법을 제안하며, 이를 통해 토글 명령 수행 정확도를 30% 이상 향상시키고 일반 에이전트 작업 성능도 개선함을 입증합니다.
이 논문은 설득력 평가에 있어 논증 내용뿐만 아니라 수신자의 정서와 주관적 인지 평가가 미치는 영향을 분석하기 위해 심리학의 평가 모델을 적용한 '맥락화된 논증 평가 프레임워크'를 제안하고, 역할극 기반의 새로운 어노테이션 설정을 통해 이를 검증한 'ContArgA' 코퍼스를 구축했습니다.
이 논문은 기존 시뮬레이터가 지나치게 협력적이었던 한계를 극복하고, 서비스 불가 요청, 주제 이탈, 조급함, 불완전한 발화 등 네 가지 비협력적 사용자 행동을 정교하게 시뮬레이션하여 도구 에이전트의 견고성을 평가하고 개선할 수 있는 새로운 프레임워크를 제안합니다.
이 논문은 개인화된 심층 연구 에이전트의 평가를 위해 250 개의 실제 사용자 - 작업 쿼리로 구성된 PDR-Bench 와 개인화 정렬, 콘텐츠 품질, 사실적 신뢰성을 측정하는 PQR 평가 프레임워크를 제안합니다.
이 논문은 대규모 언어 모델의 신뢰성 부족 문제를 해결하고 해석 가능한 신경-상징 AI 를 실현하기 위해, 비정형 텍스트로부터 사실적이고 타당한 지식 그래프를 효율적으로 추출하는 소형 모델 'GraphMERT'를 제안하고 그 우수성을 입증합니다.
이 논문은 대규모 언어 모델의 추론을 표현 공간 내의 기하학적 흐름으로 모델링하여, 다음 토큰 예측 학습만으로도 모델이 논리적 불변성을 내재화할 수 있음을 증명하고 기계적 이해와 인간 언어 규칙 사이의 보편적 표현 법칙을 제시합니다.
이 논문은 기존 활성화 기반 분석의 한계를 극복하고 외부 모델이나 데이터셋 없이도 학습된 가중치와 구성 요소 간 상호작용을 직접 분석하여 기계적 해석 가능성을 확장하는 두 가지 새로운 방법인 WeightLens 와 CircuitLens 를 제안합니다.
이 논문은 주석 데이터가 부족한 시각적 추론 도메인 (예: 차트, 문서, 웹페이지) 에서 소량의 시드 질문을 원시적 요소로 분해하고 재조합하여 대규모 합성 데이터를 생성하고, 이를 통해 다중 모달 대규모 언어 모델의 일반화 추론 능력을 향상시키는 'COGS'프레임워크를 제안합니다.
이 논문은 대규모 언어 모델의 보편적 정직성 정렬을 위해 소량의 정답 주석만으로 고품질의 신뢰도 조정이 가능한 'EliCal' 프레임워크를 제안하고, 이를 검증하기 위해 대규모 벤치마크 'HonestyBench'를 공개했습니다.
이 논문은 RAG 시스템의 응답 생성과 무관하게 발생하는 '인용 실패' 현상을 정의하고, 이를 분석하기 위한 벤치마크 'CITECONTROL'과 생성·주의·검색 기반 방법을 통합한 효율적 해결 프레임워크 'CITENTION'을 제안합니다.
이 논문은 타오바오 비주얼 검색 시스템의 '사용자-검색 시스템 의도 불일치' 문제를 해결하기 위해 오프라인에서 대규모 모델을 활용한 잠재적 의도 마이닝과 온라인에서 실시간 의사결정을 수행하는 새로운 프레임워크 REVISION 을 제안하여 클릭 없는 요청률을 크게 감소시켰음을 보여줍니다.
이 논문은 텍스트, 오디오, 비디오 모달리티가 모두 주석된 독일어 멀티모달 풍자 데이터셋인 MuSaG 을 소개하고, 기존 모델들이 텍스트에 의존하는 반면 인간은 오디오에 크게 의존한다는 인간과 모델 간의 성능 격차를 규명하여 향후 연구의 기초를 마련합니다.
이 논문은 이기적인 에이전트 데이터 형식을 통합하는 경량 표현 언어인 '에이전트 데이터 프로토콜 (ADP)'을 제안하여, 다양한 소스의 데이터를 표준화함으로써 도메인 특화 튜닝 없이도 LLM 에이전트의 성능을 평균 20% 향상시키고 최첨단 수준에 도달하게 했음을 보여줍니다.
이 논문은 프랑스 의학 학생들의 실제 시험을 기반으로 한 CareMedEval 데이터셋을 소개하여, 현재 대규모 언어 모델이 과학적 문헌에 대한 비판적 평가와 추론에서 여전히 한계를 보이고 있음을 규명했습니다.
이 논문은 암 환자 인터뷰 및 포럼 데이터를 기반으로 대규모 언어 모델 (LLM) 과 인간 개입 방식을 결합하여 네덜란드어 은유를 추출하고 'HealthQuote.NL' 코퍼스를 구축함으로써 환자-임상진 간 소통 개선과 맞춤형 치료 경로 설계에 기여하는 방안을 제시합니다.
이 논문은 ContArgA 코퍼스를 기반으로 제로샷 프롬프팅 실험을 수행하여, 논증의 설득력 예측에 범주형 감정 모델보다 평가 이론 (appraisal theories) 이 더 효과적임을 최초로 체계적으로 입증했습니다.
이 논문은 오픈 소스 커뮤니티에서 저자원 언어인 바스크어를 위한 강력한 멀티모달 대형 언어 모델을 개발하기 위해 자체 데이터셋을 구축하고, 바스크어 지시형 백본 모델이 필수적이지 않으며 소량의 바스크어 멀티모달 데이터만으로도 우수한 성능을 달성할 수 있음을 입증했습니다.
이 논문은 웹 페이지의 주요 콘텐츠를 추출하기 위해 생성형 LLM 의 높은 비용과 할루시네이션 문제를 해결하면서도 전통적 휴리스틱 방법보다 뛰어난 정확도를 보여주는 경량화된 프레임워크 'Dripper'를 제안하고, 이를 통해 고품질 학습 코퍼스 구축과 모델 성능 향상을 가능하게 했음을 보여줍니다.