PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

이 논문은 poultry 관련 텍스트의 정서 분석을 위해 도메인 특화 임베딩과 게이트드 크로스 어텐션 메커니즘을 결합한 이중 스트림 트랜스포머 아키텍처인 PoultryLeX-Net 을 제안하며, 기존 모델 대비 97.35% 의 정확도와 99.61% 의 AUC-ROC 를 기록한 우수한 성능을 입증했습니다.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

이 논문은 기관별 데이터에 맞춰 학습된 대규모 언어 모델 대화 시스템 'TAMUSA-Chat'의 아키텍처, 학습 방법론, 그리고 책임 있는 배포 전략을 제시하며, 학술 기관이 투명성과 거버넌스를 준수하며 전문적인 AI 시스템을 구축할 수 있는 프레임워크를 제안합니다.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

이 논문은 화용론적 추론 능력을 평가하기 위해 다양한 상황과 권력 관계를 반영한 300 개의 인간 검증 시나리오로 구성된 '맥락적 정서 추론 (CEI)' 벤치마크를 제안합니다.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

이 논문은 50 개의 행동 면접 데이터로 수행된 실험을 통해, 자동화된 체인 오브 씽킹 (Chain-of-Thought) 프롬프팅보다 인간 개입 (Human-in-the-Loop) 방식이 후보자의 자신감과 진정성 향상, 그리고 더 적은 반복 횟수로 더 높은 면접 답변 품질을 달성함을 입증했습니다.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

이 논문은 GPT 모델의 세대 간 '공감 능력'은 통계적으로 유의미한 차이가 없으나, 위기 상황 감지 능력은 향상되고 조언의 안전성은 저하되는 등 안전성 태도가 변화했으며, 사용자들이 느끼는 공감 상실은 이러한 안전성 조정의 결과임을 임상적 평가를 통해 규명했습니다.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

이 논문은 자동화된 기계 학습 프레임워크를 활용하여 구글 번역과 GPT-4, GPT-4o, DeepSeek 등 다양한 대형 언어 모델의 중국어 (현대 및 고전 문학, 뉴스 포함) 에서 영어 번역 품질을 평가한 결과, 뉴스 번역에서는 우수한 성능을 보였으나 문화적 뉘앙스나 고전적 표현이 포함된 문학 텍스트 번역에서는 여전히 한계가 있음을 밝혔습니다.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

이 논문은 무인 항공기의 안전 평가 및 규제 준수를 지원하기 위해 권위 있는 규제 문서에 기반한 검색 증강 언어 어시스턴트를 설계하고 검증하여, 생성 모델의 오류를 방지하고 추적 가능한 증명을 제공함으로써 인간 전문가의 판단을 보조하는 체계를 제안합니다.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

이 논문은 위키데이터와 전문가 지식을 활용하여 라틴아메리카의 다양한 사회문화적 편향을 평가할 수 있는 26,000 개 이상의 다국어 질문 - 답변 데이터셋 (LatamQA) 을 구축하고, 이를 통해 대규모 언어 모델이 라틴아메리카 문화보다 이베리아 스페인 문화에 더 치우친 편향을 보이며 언어와 지역에 따라 성능 편차가 있음을 규명했습니다.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

이 논문은 자연어 프롬프트로 스프레드시트 작업장을 생성하는 LLM 의 성능을 평가하기 위해 블라인드 쌍대 비교 방식을 도입한 'SpreadsheetArena' 플랫폼을 소개하고, 사용 사례에 따라 선호되는 스프레드시트의 특성이 크게 달라지며 도메인별 모범 사례와 정렬되지 않는 경우가 많음을 규명합니다.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

이 논문은 과거 프레임 임베딩에서 추출한 의미 정보를 지식 증류로 학습된 컨텍스트 모듈을 통해 신경 전사기에 주입함으로써, 제한된 미래 컨텍스트 환경에서 스트리밍 자동 음성 인식 (ASR) 의 성능을 향상시키는 SENS-ASR 을 제안합니다.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

이 논문은 기존 GRPO 의 한계를 극복하고 이질적인 사용자 선호도를 효과적으로 정렬하기 위해, 그룹별 보상 이력을 기반으로 이득을 정규화하는 새로운 프레임워크인 '개인화 GRPO(P-GRPO)'를 제안하고 그 유효성을 입증합니다.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Measuring and Eliminating Refusals in Military Large Language Models

이 논문은 군용 대규모 언어 모델 (LLM) 의 과도한 거부 행위를 평가하기 위해 군인 전문가들이 구축한 새로운 벤치마크를 제시하고, 'Heretic' 라이브러리를 통한 제동 해제 실험을 통해 거부율을 획기적으로 낮추는 동시에 군사 임무 정확도를 유지하는 방법론을 논의합니다.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

DeliberationBench: A Normative Benchmark for the Influence of Large Language Models on Users' Views

이 논문은 대규모 언어 모델 (LLM) 의 사용자의 견해에 미치는 영향을 평가하기 위해 deliberative opinion polling 과정을 표준으로 삼은 'DeliberationBench'를 제안하고, 4,088 명의 미국 참가자를 대상으로 한 실험을 통해 해당 모델들이 민주적으로 정당한 기준에 부합하며 사용자의 자율성을 해치지 않는 긍정적인 인식적 영향을 미친다는 것을 입증했습니다.

Luke Hewitt, Maximilian Kroner Dale, Paul de Font-Reaulx2026-03-12💻 cs

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

이 논문은 AI 규제에서 모호한 'AI 모델'과 'AI 시스템'의 경계 문제를 해결하기 위해 학술 및 규제 문헌을 분석하고, 모델을 '학습된 매개변수와 아키텍처'로, 시스템을 '모델과 입출력 처리 구성요소를 포함한 전체'로 정의함으로써 규제 책임 소재를 명확히 하는 프레임워크를 제안합니다.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI