Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments

이 논문은 생성형 AI 시대의 대면 평가 필요성에 부응하여, 해답 키 및 채점 기준 개발부터 자동화된 스캔과 다중 LLM 채점, 인간 검증까지 이어지는 인간-루프 LLM 채점 워크플로우를 제안하고, 이를 통해 채점 시간을 약 23% 단축하면서도 공정한 채점 정확도를 유지할 수 있음을 실증했습니다.

Arne Vanhoyweghen, Vincent Holst, Melika Mobini + 9 more2026-03-16🤖 cs.AI

BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning

이 논문은 대규모 데이터셋과 복잡한 딥러닝 모델에서도 확장 가능하고 강력한 최적 선택 기준 (Oracle) 을 제공하기 위해, 다양한 선택 전략의 앙상블을 통해 성능 향상이 가장 큰 배치의 선택을 수행하는 'BoSS'라는 새로운 전략을 제안하고, 이를 통해 기존 심층 능동 학습 전략들이 여전히 오라클 성능에 미치지 못함을 입증했습니다.

Denis Huseljic, Paul Hahn, Marek Herde, Christoph Sandrock, Bernhard Sick2026-03-16🤖 cs.LG

Developing the PsyCogMetrics AI Lab to Evaluate Large Language Models and Advance Cognitive Science -- A Three-Cycle Action Design Science Study

이 논문은 3 단계 액션 디자인 과학 연구를 통해 현대적 LLM 평가의 한계를 극복하고 포퍼의 반증 가능성, 고전적 검사 이론, 인지 부하 이론 등 핵심 이론을 기반으로 심리측정 및 인지과학 방법론을 통합한 'PsyCogMetrics AI Lab'이라는 클라우드 기반 플랫폼을 개발하고 검증한 내용을 담고 있습니다.

Zhiye Jin (Nancy), Yibai Li (Nancy), K. D. Joshi (Nancy), Xuefei (Nancy), Deng (Emily), Xiaobing (Emily), Li2026-03-16🧬 q-bio

Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation

이 논문은 모델 파라미터 업데이트 없이도 미세한 실행 진단과 이중 트랙 지식 증류가 결합된 폐루프 메커니즘을 통해 장기 과제를 수행하는 오픈 월드 embodied 에이전트의 자기 진화를 가능하게 하는 'Steve-Evolving' 프레임워크를 제안합니다.

Zhengwei Xie, Zhisheng Chen, Ziyan Weng, Tingyu Wu, Chenglong Li, Vireo Zhang, Kun Wang2026-03-16🤖 cs.AI

ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

이 논문은 ESG 보고서의 긴 문맥과 복잡성으로 인한 할루시네이션 문제를 해결하기 위해 실제 ESG 보고서 기반의 질문-답변 데이터셋인 ESG-Bench 를 제안하고, 이를 통해 체인 오브 씽킹 (CoT) 전략이 할루시네이션 감소와 일반적 QA 성능 향상 모두에 효과적임을 입증합니다.

Siqi Sun, Ben Peng Wu, Mali Jin, Peizhen Bai, Hanpei Zhang, Xingyi Song2026-03-16💬 cs.CL

Developing and evaluating a chatbot to support maternal health care

이 논문은 인도에서 개발된 산모 건강 챗봇의 기술적 도전과제를 해결하고, 고위험 상황 배포를 위해 단계별 분류, 하이브리드 검색, 증거 기반 생성을 결합한 시스템과 다중 평가 워크플로우를 제안하며, 신뢰할 수 있는 의료 보조 도구를 구축하기 위해서는 단일 모델이 아닌 방어적 설계와 종합적 평가가 필수적임을 보여줍니다.

Smriti Jha, Vidhi Jain, Jianyu Xu, Grace Liu, Sowmya Ramesh, Jitender Nagpal, Gretchen Chapman, Benjamin Bellows, Siddhartha Goyal, Aarti Singh, Bryan Wilder2026-03-16🤖 cs.AI

Clustering Astronomical Orbital Synthetic Data Using Advanced Feature Extraction and Dimensionality Reduction Techniques

본 논문은 미니로켓 (MiniRocket) 기반의 고급 특징 추출 및 차원 축소 기법을 활용하여 약 22,300 개의 토성 위성 궤도 시뮬레이션 데이터를 클러스터링함으로써, 대규모 천체 역학 데이터의 안정성 영역과 공명 구조를 규명하는 확장 가능하고 해석 가능한 분석 프레임워크를 제시합니다.

Eraldo Pereira Marinho, Nelson Callegari Junior, Fabricio Aparecido Breve, Caetano Mazzoni Ranieri2026-03-16🔭 astro-ph

Learnability and Privacy Vulnerability are Entangled in a Few Critical Weights

이 논문은 프라이버시 취약성이 소수의 가중치에 집중되어 있으며, 해당 가중치의 중요성은 값이 아닌 위치에 기인한다는 통찰을 바탕으로, 모든 가중치를 재학습하는 대신 중요 가중치만 초기화하여 미세 조정하는 방식을 제안함으로써 멤버십 추론 공격에 대한 저항성을 높이면서도 모델의 유용성을 유지함을 보여줍니다.

Xingli Fang, Jung-Eun Kim2026-03-16🤖 cs.LG

Multi-objective optimization determines when, which and how to fuse deep networks: an application to predict COVID-19 outcomes

이 논문은 Pareto 다목적 최적화를 활용하여 COVID-19 중증도 예측을 위해 다양한 단일 모달리티 신경망들을 언제, 어떤 방식으로, 그리고 어떻게 융합할지 결정하는 새로운 멀티모달 딥러닝 접근법을 제시하며, AIforCOVID 데이터셋에서 최첨단 성능과 견고성을 입증하고 설명 가능한 AI 기법을 통해 예측의 신뢰성을 강화했습니다.

Valerio Guarrasi, Paolo Soda2026-03-13🤖 cs.AI

Multimodal Explainability via Latent Shift applied to COVID-19 stratification

이 논문은 표본 분류와 모달리티 재구성을 동시에 학습하고 잠재 공간 이동 (latent shift) 을 통해 각 모달리티의 기여도와 중요도를 정량적으로 설명하는 딥러닝 아키텍처를 제안하며, AIforCOVID 데이터셋을 통해 COVID-19 중증도 예측에서 분류 성능을 유지하면서 의미 있는 설명 가능성을 입증했습니다.

Valerio Guarrasi, Lorenzo Tronchin, Domenico Albano + 4 more2026-03-13🤖 cs.LG