HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology
이 논문은 심장 질환의 정확한 감별 진단과 설명 가능성을 위해 설계된 자율 에이전트 시스템 'HeartAgent'를 제안하며, 기존 방법 및 비보조 전문가 대비 진단 정확도와 설명의 질을 크게 향상시켰음을 입증합니다.
1071 편의 논문
이 논문은 심장 질환의 정확한 감별 진단과 설명 가능성을 위해 설계된 자율 에이전트 시스템 'HeartAgent'를 제안하며, 기존 방법 및 비보조 전문가 대비 진단 정확도와 설명의 질을 크게 향상시켰음을 입증합니다.
이 논문은 현재 RLVR(검증 가능한 보상을 통한 강화 학습) 연구에서 영어 중심의 한계를 극복하기 위해, 14 개 언어로 번역되고 정제된 10,000 개 이상의 고품질 수학 문제 데이터셋인 'mAceReason-Math'를 제안하고 공개합니다.
이 논문은 기계적 해석을 통해 대형 언어 모델이 문자 단위 토큰화 입력에서도 견고한 성능을 보이는 핵심 메커니즘으로, 은닉 상태가 표준 단어 토큰을 재구성하는 '단어 복원 (word recovery)' 과정과 이를 가능하게 하는 초기 계층 내의 인접 문자 간 주의 메커니즘을 규명했다고 요약할 수 있습니다.
이 논문은 고비용의 대형 언어 모델 (LLM) 을 직접 활용하는 대신, LLM 을 MQM 스타일 주석 생성에 사용하여 COMET 모델을 학습시킴으로써 중국어 - 영어 및 영어 - 독일어 번역 품질 평가에서 인간 주석과 높은 상관관계를 보이는 경쟁력 있는 성능을 달성하는 방법을 제안합니다.
이 논문은 중국어 은유 식별의 투명성과 해석 가능성을 높이기 위해 LLM 을 보조로 활용하여 MIPVU 등 네 가지 서로 다른 프로토콜을 실행 가능한 규칙 스크립트로 구현하고, 이를 통해 프로토콜 선택이 모델 성능보다 식별 결과의 변동성에 더 큰 영향을 미친다는 것을 입증했습니다.
이 논문은 1999 년부터 2025 년까지의 룩셈부르크어 뉴스 27 만 건을 분석하여 언어 간 차용 현상을 문서 수준이 아닌 어휘 및 형태소 적응에 초점을 맞춰 정량화하고, 프랑스어 기반의 차용어가 주를 이루며 점진적으로 증가하는 경향을 규명했습니다.
이 논문은 14 개 언어로 검증 가능한 추론 문제를 절차적으로 생성할 수 있는 'Multilingual Reasoning Gym'을 소개하며, 이를 통해 대규모 다국어 추론 모델 연구와 강화 학습 평가를 지원한다고 요약할 수 있습니다.
이 논문은 기존 하드 레이블 텍스트 공격의 비효율적인 탐색 방식을 극복하기 위해, 다중 팔 밴딧 알고리즘을 활용해 예측의 핵심이 되는 '피벗 세트'를 식별하고 전략적으로 교란함으로써 공격 성공률과 쿼리 효율성을 동시에 향상시키는 새로운 프레임워크인 PivotAttack 을 제안합니다.
이 논문은 데이터가 부족한 NPU 커널 합성 분야에서 대규모 언어 모델의 성능 저하를 해결하기 위해, 가치 기반 기억 메커니즘을 통해 경험을 축적하고 단계별로 최적화하는 자기 진화 에이전트 프레임워크인 EvoKernel 을 제안합니다.
이 논문은 희소 롤아웃 환경에서 사전 학습된 일반 가치 모델의 예측을 사전 지식으로 활용하고 실시간 통계 검증을 통해 추가 롤아웃 예산을 동적으로 할당함으로써, 편향과 분산을 균형 있게 제어하여 GRPO 및 DAPO 보다 우수한 성능을 보이는 새로운 가치 모델 를 제안합니다.
이 논문은 1800 년부터 1955 년까지의 출판 시기와 5 세기부터 20 세기까지의 집필 시기를 아우르는 185 개 문학 작품 24 만 4 천 단어로 구성된 시디아크 (SiDiaC-v.2.0) 를 소개하며, 이는 스리랑카 국립도서관 자료를 기반으로 OCR 및 정제 과정을 거쳐 생성된 가장 방대한 싱할라어 역사적 말뭉치임을 밝히고 있습니다.
이 논문은 영어와 독일어 카탈로그 기록에 통합 권위 파일 (GND) 주석이 달린 대규모 이언어 말뭉치와 머신 액션 가능한 GND 분류 체계를 공개하여, 확장 가능한 주제 색인 및 권위 기반 AI 보조 도구를 위한 오토니지 인식 다중 레이블 분류 연구를 가능하게 한다고 요약할 수 있습니다.
이 논문은 기존 지식 증류의 한계를 극복하고, 대규모 비전 - 언어 모델 (블랙박스 포함) 의 내부 구조 변경이나 추가 학습 없이 효율적으로 언어 전용 모델로 지식을 전이하여 성능을 향상시키는 새로운 프레임워크인 ARMADA 를 제안합니다.
GLM-OCR 는 0.9B 파라미터의 경량 멀티모달 모델로, 멀티 토큰 예측 (MTP) 메커니즘과 2 단계 파이프라인을 통해 문서 이해, 텍스트 및 수식 전사, 표 구조 복원, 핵심 정보 추출 등 다양한 작업에서 높은 효율성과 최첨단 성능을 달성합니다.
이 논문은 라벨이 없는 질문 데이터만으로 LLM 의 응답을 예측하는 생성적 접근법을 통해 기존 대비 9.3% 높은 성능을 달성하고, 안전성 및 추론 능력을 강화하며 해석 가능한 임베딩을 생성하는 'LLM2Vec-Gen'을 제안합니다.
이 논문은 CVE 데이터베이스를 기반으로 새로운 취약점이 지속적으로 통합될 수 있는 확장 가능한 벤치마크인 TOSSS 를 제안하여, 대규모 언어 모델이 보안과 취약한 코드 조각 중 올바른 선택을 할 수 있는 능력을 0 에서 1 사이의 점수로 평가하는 방법을 제시합니다.
이 논문은 13 개의 저자원 BEIR 태스크와 5 가지 LLM 기반 PRF 방법을 통해 체계적인 실험을 수행하여, 피드백 소스와 피드백 모델의 선택이 PRF 성능에 미치는 영향을 규명하고 각 설계 요소의 중요성을 명확히 했습니다.
이 논문은 LLM 평가자 간 높은 합의가 실제 신뢰성을 보장하지 않는 '평가 환상' 현상을 규명하고, 도메인 지식을 기반으로 동적으로 평가 기준을 생성하는 MERG 프레임워크를 통해 평가의 일관성과 타당성을 개선할 수 있음을 제시합니다.
이 논문은 임의의 유한 단순 그래프를 9 개 문자 명령어 알파벳으로 구성된 compact 한 문자열로 인코딩하여, 모든 문자열이 유효한 그래프로 디코딩되고 그래프 편집 거리와 강한 상관관계를 보이는 IsalGraph 라는 새로운 표현 방법을 제시합니다.
이 논문은 유튜브 코미디 영상 분석을 통해 학습된 LLM 비평가와 다양한 역할을 수행하는 에이전트 군집을 활용하여, 전문적인 스케치 코미디 수준의 자동화 AI 시스템 'COMIC'을 제안하고 그 성능을 입증합니다.