Can Theoretical Physics Research Benefit from Language Agents?
이 논문은 현재 대규모 언어 모델의 물리학적 직관과 검증 부재를 지적하며, 물리학 연구의 실질적 기여를 위해 물리 특화 훈련 데이터와 검증 도구를 갖춘 전문 AI 에이전트의 개발이 필요하다고 주장합니다.
11471 편의 논문
이 논문은 현재 대규모 언어 모델의 물리학적 직관과 검증 부재를 지적하며, 물리학 연구의 실질적 기여를 위해 물리 특화 훈련 데이터와 검증 도구를 갖춘 전문 AI 에이전트의 개발이 필요하다고 주장합니다.
이 논문은 로마 우르두어 코드 혼합 트위터에서 희망 발언을 탐지하기 위해 최초로 다중 클래스 주석 데이터셋을 구축하고, 심리적 기반을 분석하며, XLM-R 기반의 커스텀 어텐션 트랜스포머 모델을 제안하여 기존 모델 대비 성능을 향상시킨 연구입니다.
이 논문은 기존 방법의 한계를 극복하기 위해 위상 인식형 ID 생성과 강화 미세 조정을 도입하여 차기 관심 장소 (POI) 추천의 정확성과 설명 가능성을 향상시킨 'Refine-POI' 프레임워크를 제안합니다.
이 논문은 RNN 과 확산 기반 렌더러를 결합하여 사용자의 입력에 따라 운영체제 GUI 프레임을 직접 예측하고, 실제 설치되지 않은 애플리케이션까지 합성 데이터로 학습하여 시뮬레이션할 수 있는 신경망 프레임워크 'NeuralOS'를 제안합니다.
이 논문은 1,393 개의 역량 질문 (CQ) 데이터셋을 활용하여 대규모 언어 모델 (LLM) 기반의 자동 및 반자동 CQ 검증 프레임워크인 OE-Assist 를 제안하고, 이를 통해 수동 평가 수준에 준하는 성능을 달성함을 입증했습니다.
이 논문은 온디바이스 환경에서 단일 예제가 여러 작업을 동시에 수행해야 하는 복합적 멀티태스킹 문제를 해결하기 위해, 새로운 벤치마크와 효율적인 '학습 가능한 보정' 방법을 제안합니다.
이 논문은 사물인터넷과 인공지능을 활용한 스마트 농업의 효율성을 높이기 위해 식물체 (phytobiome) 내 분자 및 전기생리학적 신호를 통신 공학적 관점에서 해석하고 모델링하여 스마트 관개 및 표적 농약 전달 등 새로운 응용 분야를 제시하고 있습니다.
이 논문은 정적 콘텐츠와 실시간 동적 정보를 모두 처리할 수 있도록 RAG 와 에이전트 도구 사용을 결합한 3 단계 프레임워크인 TURA 를 제안하여, 대규모 산업용 AI 검색 시스템의 실시간 요구사항을 충족한다고 설명합니다.
이 논문은 그래프 매칭 기반의 인-컨텍스트 예제 선택과 프롬프트 확장 기법을 활용하여 메타 에이전트가 조정하는 다중 에이전트 협업 시스템인 'Agentic Design Review System'을 제안하고, 새로운 벤치마크인 DRS-BENCH를 통해 그래픽 디자인 평가 및 실행 가능한 피드백 생성의 유효성을 입증합니다.
이 논문은 ICD 코딩 모델의 설명 가능성을 평가하기 위해 새로운 다중 세분화 데이터셋을 구축하고, LLM 이 생성한 합리적인 근거의 신뢰성을 검증한 후 이를 원격 지도 신호로 활용하여 근거 생성 모델의 성능을 향상시키는 방법을 제시합니다.
이 논문은 LLM 을 활용해 문법 규칙을 추출하고 재사용 가능한 생성기를 합성하여 구문 오류를 방지하고 실행 비용을 절감하면서도 Z3 와 cvc5 같은 주요 SMT 솔버에서 43 개의 버그를 발견한 'Once4All'이라는 새로운 스켈레톤 기반 퍼징 프레임워크를 제안합니다.
이 논문은 고전적인 전자식 구현의 병목 현상을 해결하고 대규모 확률 분포 학습 및 콘텐츠 생성을 가속화하기 위해, 깁스 샘플링의 계산 복잡도를 획기적으로 낮추고 메모리 저장 문제를 우회하는 광학 제한 볼츠만 기계 (PRBM) 를 제안하고 실험적으로 검증한 내용을 담고 있습니다.
이 논문은 사전 훈련된 이산 확산 언어 모델 (dLLM) 을 기반으로 KL 발산 최소화, 그룹화 보상 정규화, 중간 상태 매칭 및 보상 유도 조상 샘플러 등의 기법을 통해 64 배까지 가속화되면서도 기존 모델의 성능을 유지하거나 능가하는 초고속 언어 생성을 가능하게 하는 'DiDi-Instruct'라는 새로운 증류 방법을 제안합니다.
이 논문은 저장소 마이닝, 커뮤니케이션 분석 및 AI 기반 분석을 활용하여 협업 프로젝트의 품질과 개인 기여도를 공정하고 확장 가능하게 평가하는 'TRACE'라는 반자동 AI 지원 프레임워크를 제안하고, 소프트웨어 공학 수업 파일럿 배포를 통해 교수자 평가와의 높은 일치도 및 학생 만족도 향상을 입증했습니다.
이 논문은 다양한 그리퍼의 물리적 특성과 닫힘 궤적을 2D 이미지로 인코딩하여 추가 학습 없이도 새로운 그리퍼 구성에 일반화될 수 있는 실시간 그리퍼 인식 잡기 탐지 프레임워크인 XGrasp 을 제안합니다.
이 논문은 자율주행 계획자의 평가를 인간 판단과 정렬시키기 위해, 맥락 인식 능력을 갖춘 데이터셋과 강화학습 기반의 비전 - 언어 모델 평가 프레임워크인 'DriveCritic'을 제안합니다.
이 논문은 대규모 언어 모델 (LLM) 과 진화 연산을 결합한 오픈소스 프레임워크인 CodeEvolve 를 소개하며, 이는 AlphaEvolve 와 같은 기존 벤치마크에서 최첨단 성능을 달성하면서도 오픈 가중치 모델을 활용해 폐쇄형 모델 대비 훨씬 낮은 계산 비용으로 알고리즘 발견 및 최적화를 가능하게 함을 보여줍니다.
이 논문은 카테고리 이론, 석상론, 양적 논리 및 최적 수송을 통합하여 확률적 시스템의 행동 유사성을 수준으로 축소하는 가장 정교한 추상화인 보편적 성질을 가진 -몫을 제안하고, 이를 통해 추상화와 실현 사이의 쌍대성을 정립하며 양적 모달 -계산의 표현 완전성을 입증하는 정량적 추상화의 기초 이론을 제시합니다.
이 논문은 베이지안 관점에서 인-컨텍스트 학습과 활성화 조정이 모두 잠재 개념에 대한 모델의 신념을 변경한다는 통찰을 바탕으로, 두 가지 제어 방법을 통합적으로 설명하고 예측하는 폐쇄형 모델을 제시합니다.
이 논문은 기존 마이크로스케일링 (MX) MAC 설계의 한계를 극복하기 위해 하이브리드 정밀도 확장 가능 축소 트리를 제안하고 SNAX 플랫폼에 통합하여, 다양한 MX 포맷에서 높은 에너지 효율과 처리량을 달성한 NPU 통합 시스템을 제시합니다.