AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

이 논문은 14 가지 숨겨진 행동을 가진 56 개의 언어 모델을 포함하는 정렬 감사 벤치마크인 'AuditBench'를 소개하고, 이를 통해 다양한 감사 도구의 효능과 모델 학습 기법에 따른 감사 난이도 차이를 평가하는 자율 감사 에이전트 프레임워크를 제시합니다.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

이 논문은 에이전트가 도구를 재사용 가능한 고수준 '스킬'로 추상화하고 재구성할 수 있는 능력을 평가하기 위한 새로운 벤치마크 'SkillCraft'를 제안하고, 이를 통해 에이전트의 토큰 사용량을 최대 80%까지 줄이면서 성공률을 높일 수 있음을 입증했습니다.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

이 논문은 외부 API 없이 로컬 LLM 과 결정적 품질 관리 (QC) 를 통해 강의 PDF 를 다지선다형 문제로 변환하는 종단간 자체 호스팅 파이프라인을 제안하고, 정보이론·열역학·통계역학 등 세 가지 강의에서 생성된 24 개의 문제를 검증하여 프라이버시, 책임성, 친환경 AI 를 보장하는 교육 워크플로우를 입증합니다.

Seine A. Shintani2026-03-11💻 cs

MASEval: Extending Multi-Agent Evaluation from Models to Systems

이 논문은 LLM 기반 에이전트 시스템의 성능에 모델뿐만 아니라 토폴로지나 오케스트레이션 로직과 같은 구현 선택도 결정적인 영향을 미친다는 점을 강조하며, 전체 시스템을 분석 단위로 삼아 프레임워크 간 비교를 가능하게 하는 'MASEval' 평가 프레임워크를 제안합니다.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

이 논문은 개인 식별 정보에 대한 주석이 포함된 10 개 언어의 다국어 익명화 벤치마크 'MultiGraSCCo'를 제안하며, 기계 번역과 문화적 맥락 적응을 통해 생성된 고품질 합성 데이터를 활용해 의료 데이터의 익명화 시스템 개발 및 검증을 지원함을 보여줍니다.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

이 논문은 전기화학적 라벨 없이 과학 텍스트에서 파생된 임베딩 (Word2Vec 및 트랜스포머 기반) 을 사용하여 복합 고체 용액 전기촉매의 방대한 조성 공간을 효율적으로 필터링하고, 단순한 선형 결합을 활용한 경량 Word2Vec 기반 방법이 종종 가장 우수한 성능을 보임을 입증했습니다.

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

이 논문은 과학 논문 내의 표 데이터에 대한 언어 추론과 복잡한 계산이 필요한 질문을 다루는 새로운 벤치마크 'SciTaRC'를 소개하며, 현재 최첨단 AI 모델들이 실행 계획의 충실한 수행 실패로 인해 해당 작업에서 상당한 성능 저하를 보인다는 사실을 규명합니다.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

이 논문은 7 만 건의 다기관 수술 병리 보고서를 기반으로 자연어 검색, 자동 코호트 구축, 임상 질의 응답 등을 통합하여 정적인 병리 아카이브를 능동적인 임상 지능 플랫폼으로 전환하는 통합 LLM 기반 프레임워크 'PathoScribe'를 제안하고 그 유효성을 입증합니다.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

이 논문은 언어별 다양성과 인간 감정의 모호성을 반영하기 위해 35 개 감정 말뭉치와 표준화된 툴킷을 포함한 음성 감정 인식 (SER) 벤치마크인 VoxEmo 를 제안하며, 이를 통해 생성형 음성 LLM 이 하드 라벨 정확도에서는 기존 모델을 따르지 못하지만 인간의 주관적 감정 분포에는 더 잘 부합함을 입증했습니다.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas Hain2026-03-11🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

이 논문은 임상 질적 데이터의 주제를 분석할 때 확장성과 재현성 문제를 해결하기 위해 반복적 코드북 정제와 완전한 추적 가능성을 결합한 자동화 프레임워크를 제안하며, 다양한 데이터셋에서 기존 방법보다 우수한 성능과 전문가 주석과의 높은 일치도를 입증했습니다.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying Ding2026-03-11💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

이 논문은 단일 추론 경로의 중간 상태를 분석하여 불확실성을 추정하고, 이를 바탕으로 정확도를 유지하면서 추론 토큰을 최대 80%까지 절감할 수 있는 신뢰도 기반의 적응형 샘플링 프레임워크를 제안합니다.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin2026-03-11💬 cs.CL