Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments
이 논문은 생성형 AI 시대의 대면 평가 필요성에 부응하여, 해답 키 및 채점 기준 개발부터 자동화된 스캔과 다중 LLM 채점, 인간 검증까지 이어지는 인간-루프 LLM 채점 워크플로우를 제안하고, 이를 통해 채점 시간을 약 23% 단축하면서도 공정한 채점 정확도를 유지할 수 있음을 실증했습니다.
11420 편의 논문
이 논문은 생성형 AI 시대의 대면 평가 필요성에 부응하여, 해답 키 및 채점 기준 개발부터 자동화된 스캔과 다중 LLM 채점, 인간 검증까지 이어지는 인간-루프 LLM 채점 워크플로우를 제안하고, 이를 통해 채점 시간을 약 23% 단축하면서도 공정한 채점 정확도를 유지할 수 있음을 실증했습니다.
이 논문은 정답의 정확성만 평가하는 기존 방식을 넘어 중간 추론 단계의 투명성과 논리적 순서를 검증하는 새로운 벤치마크 'CRYSTAL'을 제안하고, 이를 통해 다중모달 모델의 체계적 결함을 발견하며 단계 정렬을 강화하는 'Causal Process Reward(CPR)' 학습 전략을 제시합니다.
이 논문은 Qwen2.5-VL 등 최신 비전 - 언어 모델 (VLM) 이 로봇 운동 계획에서의 공간 추론 및 사용자 선호도 반영 능력을 평가하여, 미세 조정 시 75% 의 정확도를 달성함으로써 로봇 계획 파이프라인과의 통합 가능성을 입증했습니다.
이 논문은 대규모 데이터셋과 복잡한 딥러닝 모델에서도 확장 가능하고 강력한 최적 선택 기준 (Oracle) 을 제공하기 위해, 다양한 선택 전략의 앙상블을 통해 성능 향상이 가장 큰 배치의 선택을 수행하는 'BoSS'라는 새로운 전략을 제안하고, 이를 통해 기존 심층 능동 학습 전략들이 여전히 오라클 성능에 미치지 못함을 입증했습니다.
이 논문은 현재 VideoLLM 이 카메라 운동을 명시적으로 표현하지 못하는 문제를 해결하기 위해 대규모 데이터셋과 벤치마크를 구축하고, 3D 기반 모델에서 추출한 기하학적 단계를 구조화된 프롬프팅을 통해 주입하는 경량 프레임워크를 제안하여 카메라 인식 능력을 향상시킵니다.
이 논문은 3 단계 액션 디자인 과학 연구를 통해 현대적 LLM 평가의 한계를 극복하고 포퍼의 반증 가능성, 고전적 검사 이론, 인지 부하 이론 등 핵심 이론을 기반으로 심리측정 및 인지과학 방법론을 통합한 'PsyCogMetrics AI Lab'이라는 클라우드 기반 플랫폼을 개발하고 검증한 내용을 담고 있습니다.
이 논문은 모델 파라미터 업데이트 없이도 미세한 실행 진단과 이중 트랙 지식 증류가 결합된 폐루프 메커니즘을 통해 장기 과제를 수행하는 오픈 월드 embodied 에이전트의 자기 진화를 가능하게 하는 'Steve-Evolving' 프레임워크를 제안합니다.
이 논문은 GRPO 의 최적화 과정에서 정답과 오답 간의 대비 신호를 활용하는 '양측 컨텍스트 조건화 (BICC)'와 보상-신뢰도 공분산을 기반으로 한 '보상-신뢰도 보정 (RCC)'을 제안하여 수학 추론 성능을 향상시키는 새로운 방법을 제시합니다.
이 논문은 ESG 보고서의 긴 문맥과 복잡성으로 인한 할루시네이션 문제를 해결하기 위해 실제 ESG 보고서 기반의 질문-답변 데이터셋인 ESG-Bench 를 제안하고, 이를 통해 체인 오브 씽킹 (CoT) 전략이 할루시네이션 감소와 일반적 QA 성능 향상 모두에 효과적임을 입증합니다.
이 논문은 인도에서 개발된 산모 건강 챗봇의 기술적 도전과제를 해결하고, 고위험 상황 배포를 위해 단계별 분류, 하이브리드 검색, 증거 기반 생성을 결합한 시스템과 다중 평가 워크플로우를 제안하며, 신뢰할 수 있는 의료 보조 도구를 구축하기 위해서는 단일 모델이 아닌 방어적 설계와 종합적 평가가 필수적임을 보여줍니다.
이 논문은 대형 언어 모델 에이전트의 신뢰성을 평가하기 위해 의미 불변성 테스트 프레임워크를 제안하고, 모델 규모가 클수록 오히려 의미적 변형에 대한 견고성이 낮아질 수 있음을 실증적으로 보여줍니다.
본 논문은 미니로켓 (MiniRocket) 기반의 고급 특징 추출 및 차원 축소 기법을 활용하여 약 22,300 개의 토성 위성 궤도 시뮬레이션 데이터를 클러스터링함으로써, 대규모 천체 역학 데이터의 안정성 영역과 공명 구조를 규명하는 확장 가능하고 해석 가능한 분석 프레임워크를 제시합니다.
이 논문은 MXFP8 변환 시 계산된 블록 스케일을 재사용하여 정규화 연산의 축소 크기를 32 배 줄이고 RMSNorm 을 대체하는 'MXNorm'을 제안함으로써, 대규모 언어 모델 학습 시 정확도 손실 없이 연산 속도를 크게 향상시킨다고 설명합니다.
이 논문은 프라이버시 취약성이 소수의 가중치에 집중되어 있으며, 해당 가중치의 중요성은 값이 아닌 위치에 기인한다는 통찰을 바탕으로, 모든 가중치를 재학습하는 대신 중요 가중치만 초기화하여 미세 조정하는 방식을 제안함으로써 멤버십 추론 공격에 대한 저항성을 높이면서도 모델의 유용성을 유지함을 보여줍니다.
이 논문은 LLM 기반의 다중 에이전트 협력에서 조작과 자율성 훼손을 방지하기 위해 헌법적 제약과 편차 최적화를 결합한 '헌법적 다중 에이전트 거버넌스 (CMAG)' 프레임워크를 제안하며, 이를 통해 조작적 협력 없이 윤리적으로 안정적이고 공정한 협력 결과를 도출할 수 있음을 실험을 통해 입증합니다.
이 논문은 실행 간의 통찰력을 축적하고 반성하여 AI 기반 계산 연구의 지식 고도화를 가능하게 하는 오픈소스 플랫폼 'QMatSuite'를 소개하며, 이를 통해 추론 오버헤드를 67% 줄이고 정확도를 크게 향상시켰음을 보여줍니다.
이 논문은 시각적 등가성 보상 모델 (Visual-ERM) 을 제안하여 시각적 디테일을 정밀하게 평가하고 강화학습을 통해 비주얼 투 코드 (vision-to-code) 작업의 정확도를 획기적으로 향상시켰으며, 이를 검증하기 위한 벤치마크 (VC-RewardBench) 도 함께 소개합니다.
이 논문은 Pareto 다목적 최적화를 활용하여 COVID-19 중증도 예측을 위해 다양한 단일 모달리티 신경망들을 언제, 어떤 방식으로, 그리고 어떻게 융합할지 결정하는 새로운 멀티모달 딥러닝 접근법을 제시하며, AIforCOVID 데이터셋에서 최첨단 성능과 견고성을 입증하고 설명 가능한 AI 기법을 통해 예측의 신뢰성을 강화했습니다.
이 논문은 표본 분류와 모달리티 재구성을 동시에 학습하고 잠재 공간 이동 (latent shift) 을 통해 각 모달리티의 기여도와 중요도를 정량적으로 설명하는 딥러닝 아키텍처를 제안하며, AIforCOVID 데이터셋을 통해 COVID-19 중증도 예측에서 분류 성능을 유지하면서 의미 있는 설명 가능성을 입증했습니다.
이 논문은 차원 축소로 인한 표현 학습 기반 CATE 추정치의 편향을 평가하기 위해, 저차원 표현 하에서 CATE 의 비식별성 조건을 이론적으로 규명하고 신경망 기반 반증 프레임워크를 통해 해당 편향의 상하한을 추정하는 새로운 방법을 제안합니다.