Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

이 논문은 외부 API 없이 로컬 LLM 과 결정적 품질 관리 (QC) 를 통해 강의 PDF 를 다지선다형 문제로 변환하는 종단간 자체 호스팅 파이프라인을 제안하고, 정보이론·열역학·통계역학 등 세 가지 강의에서 생성된 24 개의 문제를 검증하여 프라이버시, 책임성, 친환경 AI 를 보장하는 교육 워크플로우를 입증합니다.

Seine A. ShintaniWed, 11 Ma💻 cs

MASEval: Extending Multi-Agent Evaluation from Models to Systems

이 논문은 LLM 기반 에이전트 시스템의 성능에 모델뿐만 아니라 토폴로지나 오케스트레이션 로직과 같은 구현 선택도 결정적인 영향을 미친다는 점을 강조하며, 전체 시스템을 분석 단위로 삼아 프레임워크 간 비교를 가능하게 하는 'MASEval' 평가 프레임워크를 제안합니다.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin GubriWed, 11 Ma🤖 cs.AI

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

이 논문은 개인 식별 정보에 대한 주석이 포함된 10 개 언어의 다국어 익명화 벤치마크 'MultiGraSCCo'를 제안하며, 기계 번역과 문화적 맥락 적응을 통해 생성된 고품질 합성 데이터를 활용해 의료 데이터의 익명화 시스템 개발 및 검증을 지원함을 보여줍니다.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland RollerWed, 11 Ma💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

이 논문은 전기화학적 라벨 없이 과학 텍스트에서 파생된 임베딩 (Word2Vec 및 트랜스포머 기반) 을 사용하여 복합 고체 용액 전기촉매의 방대한 조성 공간을 효율적으로 필터링하고, 단순한 선형 결합을 활용한 경량 Word2Vec 기반 방법이 종종 가장 우수한 성능을 보임을 입증했습니다.

Lei Zhang, Markus StrickerWed, 11 Ma🔬 cond-mat.mtrl-sci

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

이 논문은 과학 논문 내의 표 데이터에 대한 언어 추론과 복잡한 계산이 필요한 질문을 다루는 새로운 벤치마크 'SciTaRC'를 소개하며, 현재 최첨단 AI 모델들이 실행 계획의 충실한 수행 실패로 인해 해당 작업에서 상당한 성능 저하를 보인다는 사실을 규명합니다.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp KoehnWed, 11 Ma💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

이 논문은 7 만 건의 다기관 수술 병리 보고서를 기반으로 자연어 검색, 자동 코호트 구축, 임상 질의 응답 등을 통합하여 정적인 병리 아카이브를 능동적인 임상 지능 플랫폼으로 전환하는 통합 LLM 기반 프레임워크 'PathoScribe'를 제안하고 그 유효성을 입증합니다.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

이 논문은 언어별 다양성과 인간 감정의 모호성을 반영하기 위해 35 개 감정 말뭉치와 표준화된 툴킷을 포함한 음성 감정 인식 (SER) 벤치마크인 VoxEmo 를 제안하며, 이를 통해 생성형 음성 LLM 이 하드 라벨 정확도에서는 기존 모델을 따르지 못하지만 인간의 주관적 감정 분포에는 더 잘 부합함을 입증했습니다.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

이 논문은 임상 질적 데이터의 주제를 분석할 때 확장성과 재현성 문제를 해결하기 위해 반복적 코드북 정제와 완전한 추적 가능성을 결합한 자동화 프레임워크를 제안하며, 다양한 데이터셋에서 기존 방법보다 우수한 성능과 전문가 주석과의 높은 일치도를 입증했습니다.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying DingWed, 11 Ma💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

이 논문은 단일 추론 경로의 중간 상태를 분석하여 불확실성을 추정하고, 이를 바탕으로 정확도를 유지하면서 추론 토큰을 최대 80%까지 절감할 수 있는 신뢰도 기반의 적응형 샘플링 프레임워크를 제안합니다.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun YinWed, 11 Ma💬 cs.CL

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

본 논문은 원격 환자 모니터링 데이터를 실시간으로 분석하여 개별 임상진료자보다 높은 민감도로 응급 상황을 식별하고, 확장 가능한 비용 효율적인 임상 분류를 가능하게 하는 자율 AI 에이전트 'Sentinel'의 개발과 유효성을 입증했습니다.

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)Wed, 11 Ma🤖 cs.AI

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

본 논문은 멀티모달 LLM 에서 텍스트가 이미지로 변환될 때 발생하는 성능 저하 (모달리티 격차) 를 체계적으로 진단하고, 렌더링 요인의 영향과 오류 유형을 규명하며, 모델의 자체 텍스트 추론 궤적을 활용한 자기 증류법을 통해 시각적 텍스트 이해 능력을 획기적으로 개선하는 방법을 제시합니다.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

이 논문은 대규모 언어 모델이 생물학적 솔루션보다 인공적 솔루션을 선호하는 편향을 보임을 규명하고, 소규모 오픈 가중치 모델에 생물학 관련 데이터를 기반으로 한 미세 조정을 적용하여 이러한 편향을 통계적으로 유의미하게 개선하면서도 일반 능력을 유지할 수 있음을 입증했습니다.

Trent R Northen, Mingxun WangWed, 11 Ma💬 cs.CL