ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution
이 논문은 연구 코드 실행을 위한 환경 구성 능력을 평가하기 위해 'ResearchEnvBench'를 제안하며, 기존 최첨단 에이전트들이 의존성 해결 및 버전 호환성 문제에서 큰 한계를 보임을 확인했습니다.
9848 편의 논문
이 논문은 연구 코드 실행을 위한 환경 구성 능력을 평가하기 위해 'ResearchEnvBench'를 제안하며, 기존 최첨단 에이전트들이 의존성 해결 및 버전 호환성 문제에서 큰 한계를 보임을 확인했습니다.
이 논문은 79 개의 심층 돌연변이 스크리닝 (DMS) 어세이와 다양한 실험 데이터를 기반으로 구축된 'ViroGym'이라는 포괄적인 벤치마크를 소개하여, 단백질 언어 모델 (pLMs) 의 바이러스 변이 효과 예측 능력을 평가하고 백신 후보 선정 및 대유행 예측을 위한 체계적인 프레임워크를 제시합니다.
이 논문은 서로 다른 학습 목표 (DDPM 및 Flow Matching) 를 가진 전문가들을 동기화 없이 통합하고, 사전 학습된 체크포인트 변환과 효율적인 아키텍처를 통해 기존 분산 확산 모델 대비 연산 및 데이터 요구량을 획기적으로 줄이면서도 더 우수한 생성 품질을 달성하는 이질적 분산 확산 모델 프레임워크를 제안합니다.
이 논문은 로봇 제어 및 자율 주행과 같은 복잡한 제약 조건 하에서 현실감을 유지하면서 사전 훈련된 생성 모델을 미세 조정하여 해당 제약 영역 내에서 직접 샘플을 생성하는 새로운 프레임워크를 제안합니다.
이 논문은 확산 언어 모델 (dLLMs) 에 적용 시 발생하는 보상 붕괴 문제를 해결하기 위해, 중요도 비율 추정의 노이즈로 인한 불안정성을 억제하고 dLLM 에 최적화된 안정적 강화 학습 알고리즘인 StableDRL 을 제안합니다.
이 논문은 과도한 조향으로 인한 품질 저하를 방지하기 위해 가중치 조정과 가능성 기반 디코딩 루프를 결합하여 동적으로 조향 강도를 조절하는 새로운 방법인 DIRECTER 를 제안함으로써 대규모 언어 모델의 지시 따르기 능력을 향상시킵니다.
본 논문은 엣지 디바이스에서의 메모리 제약을 해결하기 위해 전문가들을 독립적인 가중치가 아닌 공유된 양자화된 기저의 기하학적 재배열로 모델링하여 64 개의 전문가에서 354 배의 메모리 감소와 거의 손실 없는 정확도를 달성하는 'ButterflyViT'를 제안합니다.
이 논문은 구조적 충실도를 유지하면서 용해도와 열안정성 등 다양한 개발성 속성을 동시에 만족시키기 위해 사전 학습된 역접힘 모델을 다목적 선호도 정렬 (ProtAlign) 프레임워크로 미세 조정하는 새로운 방법을 제시합니다.
이 논문은 산업용 로봇 제어에 대한 로봇 기초 모델 (RFM) 의 현황을 종합적으로 조사하고, 산업적 요구사항을 반영한 149 개 기준의 평가 프레임워크를 통해 324 개 모델을 분석한 결과, 안전성과 실시간성 등 산업 적용을 위한 체계적인 통합이 부족함을 지적합니다.
이 논문은 가시광선 이미지와 식생 지수를 융합하고 자기 주의 메커니즘을 도입한 경량 CNN 인 XMACNet 을 제안하여, 생성된 데이터로 학습된 칠리 잎 질병 분류의 정확도를 높이고 Grad-CAM++ 와 SHAP 을 통해 모델의 판단 근거를 설명 가능하게 만들었음을 소개합니다.
이 논문은 불균형 데이터에서 소규모 개념의 드리프트를 대규로 개념의 영향으로부터 독립적으로 탐지하고 해석할 수 있도록 설계된 '불균형 클러스터 기술자 기반 드리프트 탐지 (ICD3)' 방법을 제안합니다.
이 논문은 알츠하이머병 진단 및 예후를 위한 머신러닝 모델의 SHAP 설명이 질병 단계와 모델 아키텍처에 걸쳐 일관되고 안정적임을 NACC 데이터셋 기반 실험을 통해 입증함으로써, 임상 현장에서의 신뢰할 수 있는 해석을 가능하게 하는 다단계 설명 가능성 프레임워크를 제안합니다.
이 논문은 고정익 글라이더의 착륙 및 착지 과제를 위해 공력 형상과 운동 계획기를 동시에 최적화하는 일반 목적의 그라디언트 기반 중첩 코-디자인 프레임워크를 제안하며, 신경망 대리 모델을 통해 복잡한 유동 조건을 모델링하고 기존 방법론의 한계를 극복하여 계산 효율성과 성능을 동시에 향상시킵니다.
이 논문은 PDE 잔차 기반 중요도와 공간적 다양성을 동시에 고려하여 QUBO 최적화와 희소 그래프 기반 하이브리드 코어셋을 통해 물리 정보 신경망 (PINN) 의 콜로케이션 점 선택을 최적화하고, 기존 방법 대비 선택 오버헤드를 줄이면서 정확도를 향상시키는 새로운 방법을 제안합니다.
이 논문은 안전이 중요한 화학 공정 분야에서 설명 가능성과 해석 가능성이 부족하며 실제 고장 데이터가 희소한 기존 AI 의 한계를 극복하기 위해, 에틸렌 산화 공정을 사례로 상징적 기계 학습을 활용하여 고장을 예측하고 해석 가능한 규칙 기반 모델을 생성하는 방법을 제안합니다.
이 논문은 작업장 스케줄링 문제를 이종 그래프로 모델링하고 이종 그래프 트랜스포머를 활용하여 작업 우선순위 및 기계 경쟁 관계를 구분해 학습함으로써, 기존 동종 그래프 기반 강화학습 방법보다 우수한 스케줄링 성능을 달성하는 'HGT-Scheduler'를 제안합니다.
이 논문은 그래프 확산과 공간 어텐션을 결합한 하이브리드 프레임워크인 SpatialMAGIC 을 제안하여, 공간 전사체 데이터의 희소성과 기술적 노이즈를 해결하고 클러스터링 정확도 및 하류 생물학적 분석 성능을 기존 방법론보다 향상시켰음을 보여줍니다.
이 논문은 실제 데이터셋에 존재하지 않는 시간적 근거를 평가하기 위해, 합성 시계열 데이터 생성 및 표준 로컬라이제이션 지표를 제공하는 재사용 가능한 Python 패키지 'xaitimesynth'를 소개합니다.
이 논문은 데이터 부족과 클래스 불균형으로 인한 난제 해결을 위해, 물리 법칙을 반영한 컨텍스트 기반 확산 모델을 개발하여 열대성 저기압의 급격한 강화를 특징으로 하는 극단적 기상 현상의 합성 데이터를 생성하고, 이를 통해 운영용 기상 탐지 알고리즘의 성능을 향상시키는 확장 가능한 프레임워크를 제시합니다.
이 논문은 조기 수렴 문제를 해결하고 샘플 효율성을 향상시키기 위해 과거의 성공적인 트래젝토리를 보존하고 강화하는 경량 메커니즘인 '낙관적 정책 정규화 (OPR)'를 제안하며, 아타리 및 사이버 방어 환경에서 기존 최첨단 방법보다 뛰어난 성능을 입증했습니다.