Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts
이 논문은 기존 환각 탐지 방법의 성능이 모델의 내적 정보에 대한 진정한 인식보다는 질문 기반의 벤치마크 해킹에 크게 의존하고 있음을 '근사 질문 측 효과 (AQE)'라는 새로운 방법론을 통해 규명했습니다.
1071 편의 논문
이 논문은 기존 환각 탐지 방법의 성능이 모델의 내적 정보에 대한 진정한 인식보다는 질문 기반의 벤치마크 해킹에 크게 의존하고 있음을 '근사 질문 측 효과 (AQE)'라는 새로운 방법론을 통해 규명했습니다.
이 논문은 비디오 기반 오디오 생성 (비디오 - 사운드 및 비주얼 TTS) 을 별도의 작업이 아닌 통합된 흐름 매칭 프레임워크인 VSSFlow 를 통해 단일 모델로 성공적으로 통합하고, 기존 통념과 달리 결합 학습이 성능 저하를 초래하지 않음을 입증하여 최첨단 전용 모델들을 능가하는 성능을 보여줍니다.
이 논문은 시각적 단서와 환경음을 활용한 비디오 유머 이해를 평가하기 위한 새로운 벤치마크 'v-HUB'를 제안하고, 이를 통해 멀티모달 대형 언어 모델들이 시각 정보만으로는 유머를 이해하는 데 어려움을 겪지만 음향 정보를 통합할 경우 성능이 향상됨을 입증했습니다.
이 논문은 공개 웹과 기업 내부 지식 베이스를 모두 활용하여 복잡한 다단계 조사 과제를 수행하는 AI 에이전트의 능력을 평가하기 위해 서비스노우에서 개발한 'DRBench'라는 새로운 벤치마크와 100 개의 실제 시나리오를 소개합니다.
이 논문은 음성 토큰을 잠재적 패치로 집계하여 텍스트와 음성의 시퀀스 모델링 세분성을 일치시키고 계산 효율성을 높임으로써, 음성 및 텍스트 성능을 동시에 향상시키는 '잠재 음성 - 텍스트 트랜스포머 (LST)'를 제안합니다.
이 논문은 복잡한 문제 해결 능력과 신뢰할 수 있는 검증 없는 테스트 시간 진화의 한계를 극복하기 위해, 구조화된 도구 호출을 통한 다중 턴 추론, 도구 사용과 응답을 분리한 강화 학습, 그리고 도구 기반 검증을 포함한 제안 - 판정 - 업데이트 루프를 통합한 'AlphaApollo'라는 에이전트 추론 시스템을 제시합니다.
이 논문은 내비게이션 에이전트의 공간 지능을 체계적으로 평가하기 위해 'NavSpace' 벤치마크를 제안하고, 이를 통해 기존 모델들의 한계를 드러내며 새로운 공간 지능 내비게이션 모델인 'SNav'를 개발하여 우수한 성능을 입증했습니다.
이 논문은 언어 모델의 추론 능력과 암기된 지식의 영향을 명확히 분리하여 평가하기 위해, 실제 세계와 구조는 동일하지만 지식 무용지물인 합성 세계를 병렬로 구축하는 'SynthWorlds' 프레임워크를 제안합니다.
이 논문은 토크나이저 효율성을 고려한 새로운 효율성 지표인 '정보 용량 (Information Capacity)'을 제안하고, 이를 통해 다양한 크기와 아키텍처의 오픈소스 대규모 언어 모델들의 추론 효율성을 평가하고 성능 예측 및 언어 편향을 분석했습니다.
이 논문은 LLM 기반의 다중 에이전트 토론을 시뮬레이션하고 이를 이질적 그래프로 구조화하여 그래프 신경망으로 추론하는 'ReViewGraph' 프레임워크를 제안함으로써, 기존 자동 논문 심사 방법의 한계를 극복하고 심사자 - 저자 간 논쟁 구조를 정교하게 반영한 더 정확한 심사 결정을 가능하게 합니다.
이 논문은 2021 년부터 2024 년까지의 565 만 건의 과학 논문 데이터를 분석한 결과, 생성형 AI 도구의 사용이 비영어권 국가의 저자들이 미국식 과학 영어에 더 빠르게 수렴하도록 하여 언어적 장벽을 낮추고 있음을 보여준다고 요약할 수 있습니다.
이 논문은 기존 연구의 한계인 가짜 다중모달성과 사용자 동질성 문제를 해결하기 위해, 사용자의 장기적 성향을 반영한 'U-MStance' 데이터셋과 이를 기반으로 한 다중모달 스탠스 감지 프레임워크 'PRISM'을 제안합니다.
이 논문은 가짜 뉴스 탐지와 확산 예측을 비교 분석하여, 텍스트 임베딩이 갖춰진 경우 탐지 작업은 안정적이지만 확산 예측은 운영적 선택에 민감함을 보여주며, 제한된 자원 환경에서도 최첨단 성능을 낼 수 있는 경량화되고 투명한 파이프라인을 제안합니다.
이 논문은 교육용 RAG 시스템의 사실적 정확도를 높이기 위해 엔티티 링크링을 통합한 ELERAG 아키텍처를 제안하고, 도메인 특화 데이터셋에서 기존 베이스라인 및 크로스-인코더 기반 방법보다 우수한 성능을 입증했습니다.
이 논문은 LLM 기반 심층 연구 에이전트가 생성한 전문가 수준의 보고서를 평가하기 위해 전문가가 개발한 7 차원 25 하위 차원의 세분화된 평가 체계와 주장 검증 아키텍처를 포함한 'DEER'라는 새로운 벤치마크를 제안하고, 현재 시스템이 구조적 완성도는 갖췄지만 전문가 요구 충족과 논리적 완결성 측면에서 개선의 여지가 있음을 밝혔습니다.
이 논문은 기존 활성화 기반 방법의 한계를 극복하고, 표적 뉴런 개입을 통해 언어별 예측에 대한 기능적 기여도를 분석하여 다국어 대형 언어 모델 내 언어별 뉴런의 비대칭적 전문성을 규명하는 CRANE 프레임워크를 제안합니다.
이 논문은 EVM 호환 체인에서 자연어 기반 트랜잭션 코드 생성의 실행 정확성과 안전성을 평가하기 위해 동적 검증 방식을 도입한 새로운 벤치마크인 'EVM-QuestBench'를 제안하고, 이를 통해 다양한 대규모 언어 모델들의 성능 격차와 단일 작업 대비 다단계 워크플로우 수행 능력의 비대칭성을 분석합니다.
이 논문은 화음 정보와 화자 정보를 넘어 디스크리트 음성 표현 토큰 (DSRTs) 에 내재된 억양 정보를 체계적으로 분석하기 위한 새로운 평가 프레임워크를 제안하고, 계층 선택의 중요성, ASR 감독에 의한 억양 정보 감소, 그리고 코드북 크기 축소의 비효율성 등 주요 발견 사항을 제시합니다.
이 논문은 고품질의 다턴 도구 사용 데이터를 생성하고 검증 기반 강화 학습을 통해 사용자 시뮬레이션 노이즈를 줄이는 통합 프레임워크인 'EigenData'를 제안하여, 고비용 인간 라벨링 없이도 복잡한 도구 사용 에이전트를 확장 가능하게 학습시키는 방법을 제시합니다.
이 논문은 매 토큰 생성 전에 난이도에 따라 가변적인 길이의 잠재적 사고 체인 (Latent CoT) 을 자동으로 생성하여 모델 파라미터를 늘리지 않고도 언어 모델의 성능을 향상시키고 계산 효율성을 높이는 새로운 사전 학습 방법을 제안합니다.