Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse
이 논문은 대규모 언어 모델을 기반으로 한 자율적 AI 분석가들이 인간 다중 분석가 연구와 유사한 분석적 다양성과 결과 불일치를 저렴하게 재현할 수 있음을 보여주며, 이에 따라 AI 자동화 과학의 투명성을 위해 다중 우주식 보고와 프롬프트 공개가 필수적임을 주장합니다.
2384 편의 논문
이 논문은 대규모 언어 모델을 기반으로 한 자율적 AI 분석가들이 인간 다중 분석가 연구와 유사한 분석적 다양성과 결과 불일치를 저렴하게 재현할 수 있음을 보여주며, 이에 따라 AI 자동화 과학의 투명성을 위해 다중 우주식 보고와 프롬프트 공개가 필수적임을 주장합니다.
이 논문은 실제 이상 데이터 없이 segmented 객체를 의사-이상으로 변환하고 멀티모달 대규모 언어 모델 (MLLM) 을 활용하여 오픈 월드 환경에서 최첨단 성능을 달성하는 제로샷 비디오 이상 탐지 프레임워크인 LAVIDA 를 제안합니다.
이 논문은 저선량 CT 영상의 노이즈를 제거하면서도 미세한 해부학적 구조를 보존하고 기존 CNN 및 GAN 기반 방법보다 파라미터와 에너지 효율이 월등히 뛰어난 경량 다중 스케일 패치 기반 딥러닝 모델인 'PatchDenoiser'를 제안합니다.
이 논문은 RAG 시스템의 보안 취약점인 허브성 (hubness) 중독을 탐지하기 위해 통계적 분석, 군집 확산 평가, 안정성 테스트 등을 통합한 오픈소스 스캐너 'Hubscan'을 제안하고, 다양한 벤치마크와 실전 데이터에서 높은 탐지 성능을 입증했습니다.
이 논문은 텍스트 설명과 시각적 특징 간의 정렬 정도를 정량화하여 신뢰할 수 없는 픽셀을 학습 과정에서 필터링함으로써, 기존 아키텍처 변경 없이 추론 오버헤드 없이도 Referring Image Segmentation 성능을 획기적으로 개선하는 '정렬 인식 마스킹 학습 (AMLRIS)'을 제안합니다.
이 논문은 반복적 증명 정제, 라이브러리 검색, 컨텍스트 관리 등 최첨단 시스템의 핵심 기능을 간소화하여 구현한 최소한의 자동 증명 에이전트를 제안하고, 다양한 벤치마크에서 복잡한 아키텍처와 경쟁력 있는 성능을 보이면서도 샘플 효율성과 비용 효율성 면에서 단일 생성 방식보다 우월함을 입증했습니다.
이 논문은 사이버 보안 방어 임무 수행 시 안전성 정렬된 대규모 언어 모델이 공격적 어휘와 유사한 키워드 사용만으로 합법적인 방어 요청을 과도하게 거부하는 '방어적 거부 편향'을 발견하고, 이를 해결하기 위해 단순한 의미 유사성 대신 의도와 권한을 분석하는 새로운 정렬 접근법의 필요성을 제기합니다.
이 논문은 VLM 과 전문 시각 그라운딩 모델을 분해된 에이전트 프레임워크로 결합하여 증거 기반의 단계적 워크플로우를 구현함으로써 의료 다중 모달 추론의 정확성과 임상적 책임성을 크게 향상시킨 'CARE'를 제안합니다.
이 논문은 자율 시스템의 윤리적 정렬을 평가하기 위해 이해관계자의 주관적 가치 판단과 객관적 평가를 계층적 가우시안 프로세스로 통합하고 새로운 획득 전략을 통해 효율적인 테스트 후보를 생성하는 'SEED-SET'이라는 확장 가능한 진화 실험 설계 프레임워크를 제안합니다.
이 논문은 텍스트-비디오 생성 모델의 상업적 잠재력을 실현하기 위해, 사용자 의도를 해치지 않으면서 브랜드를 자연스럽게 통합하는 'BrandFusion'이라는 다중 에이전트 프레임워크를 제안하고 그 유효성을 입증합니다.
이 논문은 코드 분석을 위한 단일 모델의 다중 태스크 파라미터 효율적 미세 조정 (PEFT) 을 체계적으로 평가하여, 단일 태스크 미세 조정과 유사한 성능을 유지하면서 저장 공간과 계산 비용을 대폭 절감할 수 있음을 입증하고, 작업 간 상호 보완성 및 모델 아키텍처 등 성공 요인을 규명했습니다.
이 논문은 기존 LLM 언러닝 기법의 한계를 극복하고 일반 성능 저하 없이 정확하고 설명 가능한 지식 제거를 실현하기 위해 추론 기반 목표를 활용한 '타겟 추론 언러닝 (TRU)'을 제안하고 그 유효성을 입증합니다.
이 논문은 아랍어에 ModernBERT 아키텍처를 적용하고 트랜스토크나이제이션 초기화 및 최대 8,192 토큰의 긴 컨텍스트 모델링을 통해 언어 모델링 성능과 다양한 다운스트림 태스크에서의 전이 능력을 크게 향상시킨 'AraModernBERT'를 제안합니다.
이 논문은 이기종 엣지 환경에서 MoE 모델의 추론 성능을 향상시키기 위해, 메모리 관리를 위한 정보적 사전 탐색 센서로서 스펙큘레이티브 디코딩을 활용하는 MoE-SpAc 프레임워크를 제안하고, 이를 통해 기존 기법 대비 4.04 배의 속도 향상을 달성했음을 보여줍니다.
본 논문은 4 개의 최신 대규모 언어 모델을 대상으로 한 실증 연구를 통해, 성능이 낮은 모델일수록 자신의 능력을 과대평가하는 인간 고유의 '더닝-크루거 효과'와 유사한 과도한 자신감 편향을 보임을 확인하고, 이를 고위험 환경에서의 안전한 LLM 배포에 중요한 시사점으로 제시했습니다.
이 논문은 의료 교과서 기반 질문응답에서 LLaMA-70B-Instruct 모델의 환각 발생률 (19.7%) 을 측정하고, 환각률이 낮을수록 임상 전문가의 유용성 평가가 높아지는 경향이 있음을 규명했습니다.
이 논문은 강화학습으로 탐색된 고품질 특성 변환 시퀀스를 기반으로 경험 라이브러리를 진화시키고 다양성 인식 선택기를 통해 컨텍스트를 최적화함으로써, 기존 LLM 기반 특성 변환 방법의 한계를 극복하고 다양한 태블러 데이터셋에서 더 높은 성능과 안정성을 달성하는 새로운 프레임워크를 제안합니다.
이 논문은 GPT-2 Small 의 간접 객체 식별 (IOI) 태스크에서 활성화 패칭을 통해 인과적으로 중요한 어텐션 헤드를 식별하고, 이를 기반으로 생성된 자연어 설명의 충실도를 평가하여 기계적 해석 가능성과 인간이 이해할 수 있는 설명 사이의 간극을 해소하는 파이프라인을 제시합니다.
이 논문은 대규모 언어 모델의 환각 관련 행동을 사용자 관점에서 신속하고 해석 가능하게 평가하기 위해 기존 심리측정 도구에 영감을 받아 개발된 경량화된 인간 중심 측정 도구인 '시스템 환각 척도 (SHS)'를 제안하고, 210 명을 대상으로 한 실증 평가를 통해 높은 신뢰도와 타당성을 입증했습니다.
이 논문은 LLaMA-3.1-8B-Instruct 를 활용한 구문 분할과 Legal-Roberta-Large 를 적용한 조항 분류로 구성된 2 단계 아키텍처를 제안하여, 다양한 형식의 비공개계약서 (NDA) 분석을 자동화하고 높은 정확도를 달성했음을 보여줍니다.