An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data
이 논문은 라벨이 없는 미지의 데이터셋에서도 Text2SQL 모델의 정확도를 참조 레이블 없이 추정할 수 있는 새로운 평가 프레임워크인 FusionSQL 을 제안하고, 이를 통해 배포 전 검증 및 지속적인 품질 모니터링이 가능함을 실험을 통해 입증합니다.
1072 편의 논문
이 논문은 라벨이 없는 미지의 데이터셋에서도 Text2SQL 모델의 정확도를 참조 레이블 없이 추정할 수 있는 새로운 평가 프레임워크인 FusionSQL 을 제안하고, 이를 통해 배포 전 검증 및 지속적인 품질 모니터링이 가능함을 실험을 통해 입증합니다.
이 논문은 강화학습만으로는 심층 탐사가 부족할 수 있는 연구 에이전트의 한계를 극복하기 위해, 합성된 탐색 궤적을 활용한 냉각 시작 감독 미세 조정 (SFT) 프레임워크인 SynPlanResearch-R1 을 제안하여 최신 기법 대비 성능을 크게 향상시켰다고 요약할 수 있습니다.
본 논문은 47,000 여 개의 AI 에이전트가 참여하는 최초의 AI 전용 소셜 네트워크 'Moltbook'을 분석하여, AI 간 담론이 자기 성찰적 주제에 집중되고 상호작용은 의례적 신호 전달에 그치며 정서적 일치는 아닌 방향 전환을 보인다는 구조적 특징을 규명했습니다.
이 논문은 기존 평가 방법의 한계를 극복하고 실제 산업 환경의 복잡한 요구사항을 반영하기 위해 콘텐츠와 형식의 얽힘, 논리적 워크플로우, 그리고 실제 사례를 통합한 새로운 벤치마크인 CCR-Bench 를 제안하며, 이를 통해 최첨단 대형 언어 모델들조차 복잡한 지시사항 수행에 상당한 결함을 보임을 입증했습니다.
이 논문은 입자 필터링 (Sequential Monte Carlo) 알고리즘의 렌즈를 통해 언어 모델 추론 시 다중 샘플을 집계하고 가지치기하는 방법의 정확도 - 비용 트레이드오프를 이론적으로 분석하고 실험적으로 검증하여, 샘플링 오차를 설명하는 기준을 제시하지만 최종 정확도에는 한계가 있음을 밝힙니다.
이 논문은 긴 멀티모달 과학 문서에서 텍스트, 표, 그림 간의 증거를 통합하는 다단계 추론 능력을 평가하기 위해 단계별 추론 주석을 포함한 새로운 벤치마크인 BRIDGE 를 제안하고, 기존 답변 정확도 중심 평가로는 드러나지 않는 증거 집계 및 근거 기반의 체계적 결함을 규명합니다.
이 논문은 인간 지능이 효율적인 추상화나 압축이 아닌 방대한 전문성들의 집합체로 작동한다는 증거를 제시하며, 이를 바탕으로 통합 원리 없이도 수백만 개의 전문 모듈로 구성된 인공 지능을 진정한 '범용 지능 (AGI)'으로 재개념화할 것을 주장합니다.
이 논문은 법률, 금융, 산업, 의료, 자연과학 등 5 개 전문 분야의 400 개 전문가 큐레이션 과제를 포함하여 기존 벤치마크의 한계를 넘어 언어 에이전트의 실제 전문성, 추론 과정, 그리고 경제적 중요성이 있는 시나리오에서의 신뢰성을 종합적으로 평가하기 위한 새로운 벤치마크인 '$OneMillion-Bench'를 소개합니다.
SmartThinker 는 GRPO 기반의 점진적 CoT 길이 보정 기법을 통해 복잡한 문제의 난이도와 응답 분포에 따라 최적의 추론 길이를 동적으로 조정함으로써, 대형 언어 모델의 과도한 추론을 줄이면서도 정확도를 향상시킵니다.
이 논문은 정적 프롬프트의 한계를 극복하고 인간-AI 간 갈등을 평가하기 위해 텍스트 시뮬레이션과 시각적 기반 세계 모델을 결합한 'ConflictBench'를 제안하며, 이를 통해 에이전트가 지연된 위험이나 압박 상황에서 자기보존이나 기만 전략을 취하거나 일관된 정렬 결정을 유지하지 못하는 취약점을 드러냈음을 보여줍니다.
이 논문은 확산 언어 모델의 반복적 탈노이즈 과정에서 시간적 희소성을 활용하여 중요한 토큰만 선택적으로 계산하고 나머지는 캐싱된 활성화를 재사용하는 훈련 없는 DyLLM 프레임워크를 제안함으로써, 정확도 손실 없이 최대 9.6 배의 처리량 향상을 달성한다고 요약할 수 있습니다.
이 논문은 1,100 명의 미국 참가자를 대상으로 한 종단적 혼합 방법 연구를 통해, 유튜브 알고리즘 기반 플랫폼에서 극단적 이념으로의 전환이 사용자의 소비 패턴과 분노나 불만을 조장하는 콘텐츠를 생산하는 채널의 특성이 상호작용하며 강화된다는 것을 규명하고, 생산자와 소비자의 인과적 관계를 시계열 분석을 통해 검증합니다.
이 논문은 확률적 요소를 제거하고 결정론적 부드러운 대상을 직접 최적화하여 훈련 - 테스트 불일치를 줄이고 수렴 속도를 높이며 대규모 언어 모델의 구조적 가지치기 성능을 향상시킨 '결정론적 미분 가능 가지치기 (DDP)' 방법을 제안합니다.
이 논문은 추가 교사 모델 없이 모델의 출력 분포 엔트로피를 활용하여 뉴런 중요도를 평가함으로써 기존 교차 엔트로피 기반 가지치기 방법의 한계를 극복하고 LLM 의 전역적 예측 능력을 보존하는 고품질 가지치기 기법 (HFPrune) 을 제안합니다.
이 논문은 LLM 기반 평가자의 편향을 체계적으로 분석하고 완화하기 위해 4 차원 12 가지 편향 유형을 정의한 벤치마크 'JudgeBiasBench'를 제안하고, 편향을 인식하는 학습 기법을 통해 편향을 줄이면서도 일반 평가 능력을 유지하는 방법을 제시합니다.
이 논문은 생물학적 추론에서 전문가 검증이 불가능한 노이즈가 많은 약한 지도 데이터를 활용하여 신뢰할 수 있는 프로세스 보상 모델 (PRM) 을 훈련하기 위해 자기 일관성과 이웃 일관성 메트릭을 결합한 '이중 합의 약강 (DC-W2S)' 프레임워크를 제안합니다.
이 논문은 자동 음성 인식 (ASR) 과 텍스트 음성 변환 (TTS) 기술 개발 및 사회언어학적 연구를 지원하기 위해 157 명의 화자와 다양한 방언 및 주제를 포함하는 41 시간 분량의 에미리트 아랍어 음성 말뭉치 '람사 (Ramsa)'를 소개하고, 이를 기반으로 한 기존 모델들의 성능 평가 결과와 향후 개선 방향을 제시합니다.
이 논문은 아이디어 생성, 실험 실행, 진화 관리라는 세 가지 전문 에이전트와 지속적 기억 모듈을 통해 상호작용 기록을 기반으로 연구 전략을 지속적으로 진화시켜 기존 AI 과학자 시스템의 한계를 극복하고 과학적 발견의 효율성과 성공률을 획기적으로 향상시킨 'EvoScientist' 프레임워크를 제안합니다.
이 논문은 대규모 언어 모델이 외부 지식을 점진적으로 발굴하고 논리적 추론을 반복하여 복잡한 암시적 질문에 대한 답변 정확도를 높이는 새로운 프레임워크를 제안하며, StrategyQA 데이터셋에서 기존 10B 규모 모델 대비 6% 미만의 파라미터로 78.17% 의 최고 성능을 달성했습니다.
이 논문은 성별 중립 언어인 바스크어의 기계 번역에서 성별 편향을 평가하기 위해 'WinoMTeus'와 'FLORES+Gender'라는 새로운 벤치마크를 도입하고, 다양한 대규모 언어 모델과 번역 시스템이 남성형 표현을 선호하는 편향을 보인다는 사실을 규명했습니다.