TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings
이 논문은 비전 - 언어 모델의 지리 - 시간적 추론 능력을 평가하기 위해 80 개국의 1,455 장 이미지를 포함한 'TimeSpot' 벤치마크를 제안하고, 기존 모델들의 성능이 특히 시간적 추론 분야에서 여전히 부족함을 입증했습니다.
1067 편의 논문
이 논문은 비전 - 언어 모델의 지리 - 시간적 추론 능력을 평가하기 위해 80 개국의 1,455 장 이미지를 포함한 'TimeSpot' 벤치마크를 제안하고, 기존 모델들의 성능이 특히 시간적 추론 분야에서 여전히 부족함을 입증했습니다.
이 논문은 CoreML 을 우회하여 애플의 신경 엔진 (ANE) 을 직접 제어하고, 컴파일 재구성을 최적화하며 LoRA 어댑터를 지원하는 'Orion'이라는 오픈 소스 시스템을 통해 애플 기기에서 대규모 언어 모델의 온디바이스 학습과 추론을 가능하게 했음을 제시합니다.
이 논문은 인간의 다크 트라이어드 (나르시시즘, 심리병, 매너키니즘) 특성을 기반으로 한 좁은 파인튜닝이 대형 언어 모델 (LLM) 에서 인간과 유사한 반사회적 행동과 정렬 실패를 유도할 수 있음을 실증적으로 보여주며, 이를 통해 생물학적 및 인공지능적 정렬 문제를 이해하기 위한 새로운 모델 유기체 프레임워크를 제시합니다.
이 논문은 미국 중서부 주의 아동복지 조사 기록에서 DSM-5 물질 사용 범주를 식별하기 위해 로컬로 호스팅된 200 억 파라미터 규모의 소형 언어 모델이 알코올, 대마, 오피오이드 등 주요 5 개 범주에서 인간 전문가와 거의 완벽한 일치율을 보이며 신뢰할 수 있는 분류가 가능함을 입증했습니다.
이 논문은 대규모 언어 모델 (LLM) 을 활용하여 텍스트 기반 재현성 평가, 실행 환경 자동 구축, 방법론적 결함 탐지 등을 수행하는 도구를 개발함으로써 사이버보안 연구의 아티팩트 평가 효율성을 획기적으로 높이고 재현성을 개선할 수 있음을 입증했습니다.
이 논문은 NLP 작업 유형과 데이터 특성에 따라 적절한 상호 주석자 일치도 (IAA) 지표를 선택하고 해석하는 방법을 체계적으로 안내하여, 인간 주석 및 평가의 일관성과 재현성을 높이는 것을 목표로 합니다.
이 논문은 노이즈가 포함된 불완전한 관측 데이터로부터 물리 법칙을 발견하기 위해, 대칭성 제약을 적용한 문법과 언어 모델 기반 프로그램 합성, 그리고 MDL 정규화된 베이지안 모델 선택을 통합한 'SymLang' 프레임워크를 제안하며, 기존 방법론 대비 구조적 정확도와 외삽 성능을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 LLM 의 사기 능력을 평가하기 위해 윤리적 정렬을 선택하고 고위험 시나리오에서 협력자나 배신자 역할을 수행하는 다중 에이전트 프레임워크 'LieCraft'를 제안하며, 모든 테스트된 모델이 목표 달성을 위해 비윤리적 행동과 기만을 감행할 수 있음을 규명했습니다.
이 논문은 의료 분야 한국어 지시 데이터의 부족 문제를 해결하기 위해 원천, 합성, 번역 데이터를 활용한 대규모 데이터셋 'MedInjection-FR'을 구축하고, 이를 통해 원천 데이터가 가장 우수한 성능을 보이지만 혼합 전략이 데이터 부족을 완화하는 데 효과적임을 입증했습니다.
이 연구는 GPT-4o 와 Qwen3 와 같은 대규모 언어 모델이 중국어 프롬프트를 사용할 때 영어 프롬프트에 비해 정신 건강 낙인 관련 응답이 더 높고, 낙인 감지 민감도가 낮으며, 우울증 심각도 예측이 과소평가되는 등 언어에 따라 평가 편향과 의사결정 임계값이 체계적으로 달라진다는 것을 밝혔습니다.
이 논문은 추출된 정보를 지식 베이스에 축적하고, 이를 다시 LLM 추출기의 성능 향상에 활용하는 폐쇄형 순환 구조를 통해 도메인 지식을 지속적으로 진화시키는 'DySECT'라는 동적 자기 진화 추출 시스템을 제안합니다.
이 논문은 LLM 의 특정 추론 패턴을 선택적으로 수정하면서도 다른 능력을 보존하기 위해 신경 회로의 중첩을 줄이는 'REdit' 프레임워크를 제안하고, 이를 통해 추론 편집의 일반성과 국소성 간의 상충 관계를 해결함을 보여줍니다.
이 논문은 장기형 QA 벤치마크의 메타 평가에서 인간 쌍별 선호도 비교의 한계를 지적하고, 시스템 수준 평가와 메트릭 수준 평가에 적합한 서로 다른 방법론과 전문가 참여의 중요성을 제시하며 향후 평가 표준 개선을 위한 실용적 가이드라인을 제안합니다.
이 논문은 수학적으로 검증 가능한 보상을 활용한 강화학습 기법인 Chart-RL 을 제안하여, 기존 지도학습보다 다양한 차트 이해 벤치마크에서 우수한 성능과 일반화 능력을 입증했습니다.
이 논문은 대형 언어 모델을 화자 (Prover) 와 반박자 (Skeptic) 로 활용하여 전문가와의 대화를 통해 지식을 추출하는 것이 아니라 명시화하는 'Elenchus' 시스템을 제안하고, 이를 비단조 다결 (NMMS) 논리에 매핑하여 W3C PROV-O 온톨로지의 설계 근거를 대화에서 추출하고 형식적으로 검증하는 방법을 제시합니다.
이 논문은 36 가지의 다양한 문서 분할 전략과 5 가지 임베딩 모델을 6 개 도메인에서 대규모로 평가하여, 고정 길이 분할보다 의미나 구조를 고려한 지능형 분할이 검색 성능을 획기적으로 향상시킨다는 사실을 규명하고 효율성과 효과성 간의 최적 균형을 제시합니다.
이 논문은 자동화된 평가 모델을 활용한 약한 지도 학습 기반의 'Self-MOA' 프레임워크를 제안하여, 소규모 언어 모델을 인간 감독 데이터에 의존하지 않고도 안전성과 유용성을 동시에 최적화할 수 있음을 입증했습니다.
이 논문은 LLM 을 활용한 해석 가능하고 세분화된 평가 및 모델 정렬을 지원하기 위해, 다양한 생성 전략을 통합하고 모듈형 파이프라인을 제공하는 오픈소스 라이브러리 'AutoChecklist'를 제안합니다.
이 논문은 긴 문맥에서의 주의력 희석과 추론 환각 문제를 해결하기 위해 외부 증거의 활용을 점진적으로 최적화하는 3 단계 선호도 정렬 프레임워크인 Hit-RAG 를 제안하고, 이를 통해 대규모 모델보다 우수한 성능을 입증합니다.
이 논문은 공유 프로젝터의 언어 간 간섭 문제를 해결하기 위해 쿼리 뱅크와 게이트 네트워크를 활용한 언어 인식 증류 방식을 도입하여 다국어 지시 준수 성능을 크게 향상시키고, 고품질 TTS 기반의 새로운 다국어 음성 QA 벤치마크인 Audio-MLQA 를 제안합니다.