cs.CL 편의 논문 | Gist.Science

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

이 논문은 추론 시 토큰별로 필요한 계산량을 학습 가능한 가변적 마스크를 통해 동적으로 할당함으로써, 기존 모델보다 더 효율적인 성능을 달성하는 새로운 사전 학습 프레임워크인 PonderLM-3 을 제안합니다.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan LinWed, 11 Ma💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

이 논문은 다양한 언어 모델과 프롬프트 전략 간의 상호작용을 체계적으로 분석하여 Verilog 코드 생성 성능에 영향을 미치는 일반적 경향과 모델별 고유한 특성을 실증적으로 규명했습니다.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

이 논문은 외부 API 없이 로컬 LLM 과 결정적 품질 관리 (QC) 를 통해 강의 PDF 를 다지선다형 문제로 변환하는 종단간 자체 호스팅 파이프라인을 제안하고, 정보이론·열역학·통계역학 등 세 가지 강의에서 생성된 24 개의 문제를 검증하여 프라이버시, 책임성, 친환경 AI 를 보장하는 교육 워크플로우를 입증합니다.

Seine A. ShintaniWed, 11 Ma💻 cs

Fish Audio S2 Technical Report

이 논문은 자연어 지시를 통해 다화자 및 다턴 생성이 가능한 오픈소스 TTS 시스템 'Fish Audio S2'를 소개하고, 확장 가능한 훈련 레시피와 실시간 스트리밍이 가능한 고효율 추론 엔진을 공개합니다.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

이 논문은 LLM 기반 에이전트 시스템의 성능에 모델뿐만 아니라 토폴로지나 오케스트레이션 로직과 같은 구현 선택도 결정적인 영향을 미친다는 점을 강조하며, 전체 시스템을 분석 단위로 삼아 프레임워크 간 비교를 가능하게 하는 'MASEval' 평가 프레임워크를 제안합니다.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin GubriWed, 11 Ma🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

이 논문은 토큰화 방식이 완전히 다른 라틴 문자와 키릴 문자로 표기된 세르비아어 텍스트를 분석하여, 희소 자동 인코더 (SAE) 가 학습한 특징이 표면적인 표기 형식이 아닌 추상적인 의미 수준에서 불변성을 가진다는 것을 증명했습니다.

Sripad KarneWed, 11 Ma💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

이 논문은 개인 식별 정보에 대한 주석이 포함된 10 개 언어의 다국어 익명화 벤치마크 'MultiGraSCCo'를 제안하며, 기계 번역과 문화적 맥락 적응을 통해 생성된 고품질 합성 데이터를 활용해 의료 데이터의 익명화 시스템 개발 및 검증을 지원함을 보여줍니다.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland RollerWed, 11 Ma💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

이 논문은 전기화학적 라벨 없이 과학 텍스트에서 파생된 임베딩 (Word2Vec 및 트랜스포머 기반) 을 사용하여 복합 고체 용액 전기촉매의 방대한 조성 공간을 효율적으로 필터링하고, 단순한 선형 결합을 활용한 경량 Word2Vec 기반 방법이 종종 가장 우수한 성능을 보임을 입증했습니다.

Lei Zhang, Markus StrickerWed, 11 Ma🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

이 논문은 타겟 모델의 미래 생성 방향을 예측할 수 있는 'ConFu'라는 새로운 스펙큘레이티브 디코딩 프레임워크를 제안하여, 기존 EAGLE-3 대비 토큰 수용률과 생성 속도를 8~11% 향상시킨다고 설명합니다.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou SunWed, 11 Ma💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

이 논문은 과학 논문 내의 표 데이터에 대한 언어 추론과 복잡한 계산이 필요한 질문을 다루는 새로운 벤치마크 'SciTaRC'를 소개하며, 현재 최첨단 AI 모델들이 실행 계획의 충실한 수행 실패로 인해 해당 작업에서 상당한 성능 저하를 보인다는 사실을 규명합니다.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp KoehnWed, 11 Ma💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

이 논문은 7 만 건의 다기관 수술 병리 보고서를 기반으로 자연어 검색, 자동 코호트 구축, 임상 질의 응답 등을 통합하여 정적인 병리 아카이브를 능동적인 임상 지능 플랫폼으로 전환하는 통합 LLM 기반 프레임워크 'PathoScribe'를 제안하고 그 유효성을 입증합니다.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

이 논문은 언어별 다양성과 인간 감정의 모호성을 반영하기 위해 35 개 감정 말뭉치와 표준화된 툴킷을 포함한 음성 감정 인식 (SER) 벤치마크인 VoxEmo 를 제안하며, 이를 통해 생성형 음성 LLM 이 하드 라벨 정확도에서는 기존 모델을 따르지 못하지만 인간의 주관적 감정 분포에는 더 잘 부합함을 입증했습니다.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

이 논문은 소수의 앵커를 활용하여 도메인 간 시각 - 언어 특징을 정형화된 기하학적 변환으로 정렬하는 단순하고 매개변수가 적은 BiCLIP 프레임워크를 제안함으로써, 다양한 벤치마크에서 최첨단 성능을 달성하는 도메인 적응 방법을 제시합니다.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

이 논문은 72 시간이라는 골든타임을 활용하여 실종 아동 수색을 지원하기 위해, 여러 특화 LLM 과 합의 엔진을 조율하고 QLoRA 미세조정 기법을 적용한 '가디언' 시스템의 설계와 검증을 제시합니다.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

이 논문은 임상 질적 데이터의 주제를 분석할 때 확장성과 재현성 문제를 해결하기 위해 반복적 코드북 정제와 완전한 추적 가능성을 결합한 자동화 프레임워크를 제안하며, 다양한 데이터셋에서 기존 방법보다 우수한 성능과 전문가 주석과의 높은 일치도를 입증했습니다.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying DingWed, 11 Ma💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

이 논문은 단일 추론 경로의 중간 상태를 분석하여 불확실성을 추정하고, 이를 바탕으로 정확도를 유지하면서 추론 토큰을 최대 80%까지 절감할 수 있는 신뢰도 기반의 적응형 샘플링 프레임워크를 제안합니다.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun YinWed, 11 Ma💬 cs.CL

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

본 논문은 원격 환자 모니터링 데이터를 실시간으로 분석하여 개별 임상진료자보다 높은 민감도로 응급 상황을 식별하고, 확장 가능한 비용 효율적인 임상 분류를 가능하게 하는 자율 AI 에이전트 'Sentinel'의 개발과 유효성을 입증했습니다.

← 이전 다음 →

cs.CL