cs.AI 편의 논문 | Gist.Science

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

이 논문은 poultry 관련 텍스트의 정서 분석을 위해 도메인 특화 임베딩과 게이트드 크로스 어텐션 메커니즘을 결합한 이중 스트림 트랜스포머 아키텍처인 PoultryLeX-Net 을 제안하며, 기존 모델 대비 97.35% 의 정확도와 99.61% 의 AUC-ROC 를 기록한 우수한 성능을 입증했습니다.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

이 논문은 기관별 데이터에 맞춰 학습된 대규모 언어 모델 대화 시스템 'TAMUSA-Chat'의 아키텍처, 학습 방법론, 그리고 책임 있는 배포 전략을 제시하며, 학술 기관이 투명성과 거버넌스를 준수하며 전문적인 AI 시스템을 구축할 수 있는 프레임워크를 제안합니다.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

이 논문은 화용론적 추론 능력을 평가하기 위해 다양한 상황과 권력 관계를 반영한 300 개의 인간 검증 시나리오로 구성된 '맥락적 정서 추론 (CEI)' 벤치마크를 제안합니다.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

이 논문은 대형 언어 모델이 형용사 - 명사 조합성을 내부 표현 수준에서는 잘 학습하지만, 실제 기능적 과업 수행에서는 일관된 성공을 보이지 않는다는 괴리를 발견하고, 이를 통해 모델 능력을 종합적으로 이해하기 위해 대비적 평가의 중요성을 강조합니다.

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

이 논문은 50 개의 행동 면접 데이터로 수행된 실험을 통해, 자동화된 체인 오브 씽킹 (Chain-of-Thought) 프롬프팅보다 인간 개입 (Human-in-the-Loop) 방식이 후보자의 자신감과 진정성 향상, 그리고 더 적은 반복 횟수로 더 높은 면접 답변 품질을 달성함을 입증했습니다.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

이 논문은 터키어 계승 언어 교육의 맥락에서 데이터 프라이버시와 신뢰성 문제를 해결하기 위해 오프라인 LLM 의 견고성과 교육적 안전성을 평가한 결과, 8B~14B 파라미터 범위의 추론 중심 모델이 비용과 안전성 간의 가장 균형 잡힌 선택임을 밝혔습니다.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

이 논문은 GPT 모델의 세대 간 '공감 능력'은 통계적으로 유의미한 차이가 없으나, 위기 상황 감지 능력은 향상되고 조언의 안전성은 저하되는 등 안전성 태도가 변화했으며, 사용자들이 느끼는 공감 상실은 이러한 안전성 조정의 결과임을 임상적 평가를 통해 규명했습니다.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

이 논문은 자동화된 기계 학습 프레임워크를 활용하여 구글 번역과 GPT-4, GPT-4o, DeepSeek 등 다양한 대형 언어 모델의 중국어 (현대 및 고전 문학, 뉴스 포함) 에서 영어 번역 품질을 평가한 결과, 뉴스 번역에서는 우수한 성능을 보였으나 문화적 뉘앙스나 고전적 표현이 포함된 문학 텍스트 번역에서는 여전히 한계가 있음을 밝혔습니다.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

이 논문은 무인 항공기의 안전 평가 및 규제 준수를 지원하기 위해 권위 있는 규제 문서에 기반한 검색 증강 언어 어시스턴트를 설계하고 검증하여, 생성 모델의 오류를 방지하고 추적 가능한 증명을 제공함으로써 인간 전문가의 판단을 보조하는 체계를 제안합니다.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

이 논문은 위키데이터와 전문가 지식을 활용하여 라틴아메리카의 다양한 사회문화적 편향을 평가할 수 있는 26,000 개 이상의 다국어 질문 - 답변 데이터셋 (LatamQA) 을 구축하고, 이를 통해 대규모 언어 모델이 라틴아메리카 문화보다 이베리아 스페인 문화에 더 치우친 편향을 보이며 언어와 지역에 따라 성능 편차가 있음을 규명했습니다.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

이 논문은 자연어 프롬프트로 스프레드시트 작업장을 생성하는 LLM 의 성능을 평가하기 위해 블라인드 쌍대 비교 방식을 도입한 'SpreadsheetArena' 플랫폼을 소개하고, 사용 사례에 따라 선호되는 스프레드시트의 특성이 크게 달라지며 도메인별 모범 사례와 정렬되지 않는 경우가 많음을 규명합니다.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

이 논문은 과거 프레임 임베딩에서 추출한 의미 정보를 지식 증류로 학습된 컨텍스트 모듈을 통해 신경 전사기에 주입함으로써, 제한된 미래 컨텍스트 환경에서 스트리밍 자동 음성 인식 (ASR) 의 성능을 향상시키는 SENS-ASR 을 제안합니다.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

이 논문은 82 개 아랍어 의료 분류 태스크에서 아랍어 특화 양방향 인코더 (AraBERTv2) 가 다음 토큰 예측에 최적화된 인과적 디코더보다 정밀한 의미 경계 포착과 전반적인 성능에서 우월함을 입증했습니다.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

이 논문은 기존 GRPO 의 한계를 극복하고 이질적인 사용자 선호도를 효과적으로 정렬하기 위해, 그룹별 보상 이력을 기반으로 이득을 정규화하는 새로운 프레임워크인 '개인화 GRPO(P-GRPO)'를 제안하고 그 유효성을 입증합니다.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

FERRET: Framework for Expansion Reliant Red Teaming

이 논문은 수평적, 수직적, 메타 확장을 통해 다중 모달 적대적 대화를 생성하고 기존 자동화된 레드 테이밍 접근법보다 우수한 성능을 보이는 'FERRET' 프레임워크를 제안합니다.

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton2026-03-12💬 cs.CL

Measuring and Eliminating Refusals in Military Large Language Models

이 논문은 군용 대규모 언어 모델 (LLM) 의 과도한 거부 행위를 평가하기 위해 군인 전문가들이 구축한 새로운 벤치마크를 제시하고, 'Heretic' 라이브러리를 통한 제동 해제 실험을 통해 거부율을 획기적으로 낮추는 동시에 군사 임무 정확도를 유지하는 방법론을 논의합니다.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

← 이전 다음 →

cs.AI