cs.CL 편의 논문 | Gist.Science

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

이 논문은 기존 코드 에이전트 평가의 한계를 지적하고 교차 저장소 및 도메인 전문성 등 더 넓은 범위를 다루는 새로운 벤치마크 'BeyondSWE' 와 검색 기반 프레임워크 'SearchSWE' 를 제안하여, 현재 최첨단 모델조차 복잡한 실세계 작업에서 성능이 제한적이며 검색 증강이 일관된 개선을 보장하지 않음을 밝혔습니다.

Guoxin Chen, Fanzhe Meng, Jiale Zhao + 12 more2026-03-04💬 cs.CL

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

이 논문은 다양한 물리적 구현체에 공통적으로 필요한 공간 지능을 공유 기반대로 활용하여, SSR(기반 구축 - 전문화 - 조화) 패러다임과 GRPO 최적화를 통해 자율 주행, 로봇, UAV 등을 아우르는 범용 embodied intelligence 모델인 ACE-Brain-0 을 제안하고 다양한 벤치마크에서 최첨단 성능을 입증했습니다.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

이 논문은 에이전트 언어 모델이 다단계 도구 사용 중 발생할 수 있는 치명적인 오류를 방지하기 위해, 안전성 판단과 거부를 명시적인 행동으로 통합하고 선호도 기반 강화학습을 통해 학습하는 'MOSAIC'이라는 새로운 정렬 프레임워크를 제안합니다.

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL

Understanding and Mitigating Dataset Corruption in LLM Steering

이 논문은 LLM 의 행동 조정을 위한 대비적 스티어링 (contrastive steering) 이 데이터 오염에 어느 정도 강건하지만 악의적인 오염에는 취약할 수 있음을 밝히고, 고차원 평균 계산을 강건한 평균 추정기로 대체함으로써 이러한 악성 오염의 부작용을 효과적으로 완화할 수 있음을 제시합니다.

Cullen Anderson, Narmeen Oozeer, Foad Namjoo + 3 more2026-03-04💬 cs.CL

Density-Guided Response Optimization: Community-Grounded Alignment via Implicit Acceptance Signals

이 논문은 명시적 선호 데이터 없이도 온라인 커뮤니티의 암묵적 수용 행위가 생성하는 표현 공간의 밀도 구조를 활용하여, 다양한 사회적·문화적 맥락에 적응하는 언어 모델을 정렬하는 '밀도 기반 응답 최적화 (DGRO)' 방법을 제안하고 그 유효성을 입증합니다.

Patrick Gerard, Svitlana Volkova2026-03-04💬 cs.CL

Using Learning Progressions to Guide AI Feedback for Science Learning

이 연구는 화학 과제의 서술형 설명에 대해 학습 진전도 (Learning Progressions) 를 기반으로 자동 생성된 평가 기준이 전문가가 작성한 평가 기준과 동등한 품질의 AI 피드백을 제공할 수 있음을 입증했습니다.

Xin Xia, Nejla Yuruk, Yun Wang + 1 more2026-03-04💬 cs.CL

Factuality Challenges in the Era of Large Language Models

이 논문은 대규모 언어 모델 (LLM) 의 등장으로 인한 환각 현상과 악용 위험을 분석하고, 이에 대응하기 위해 사실 확인자, 언론, 연구 및 정책 커뮤니티가 필요한 기술 혁신, 규제 개혁, AI 리터러시 증진 방안을 모색합니다.

Isabelle Augenstein, Timothy Baldwin, Meeyoung Cha + 15 more2026-03-03💬 cs.CL

Using ChatGPT for Data Science Analyses

이 논문은 생성형 AI 의 발전, 특히 OpenAI 의 데이터 분석 플러그인이 데이터 과학 워크플로우에 미치는 영향을 평가하며, 이를 양적 코파일럿으로서의 잠재력과 한계를 탐색 및 시각화, 지도 및 비지도 학습 모델링 등 다양한 작업에 적용하는 사례를 제시합니다.

Ozan Evkaya, Miguel de Carvalho2026-03-03📊 stat

Large Language Model Agent in Financial Trading: A Survey

본 논문은 금융 트레이딩 분야에서 대형 언어 모델 (LLM) 에이전트의 아키텍처, 데이터 입력, 백테스트 성능 및 직면한 과제를 종합적으로 검토하여 현재 연구 동향을 파악하고 향후 연구 방향을 제시합니다.

Han Ding, Yinheng Li, Junhao Wang + 3 more2026-03-03💬 cs.CL

Scaling Knowledge Graph Construction through Synthetic Data Generation and Distillation

이 논문은 고비용 LLM 에 의존하거나 품질이 낮은 기존 문서 수준 지식 그래프 구축의 한계를 극복하기 위해, 고품질 합성 데이터를 생성하고 이를 통해 작은 모델을 미세 조정하여 단일 단계로 고품질 지식 그래프를 생성하는 'Distill-SynthKG' 프레임워크를 제안하고, 이를 통해 지식 그래프 품질과 검색 기반 질문 응답 성능을 획기적으로 향상시켰음을 보여줍니다.

Prafulla Kumar Choubey, Xin Su, Man Luo + 9 more2026-03-03💬 cs.CL

Polynomial, trigonometric, and tropical activations

이 논문은 직교 기저에 기반한 다항식, 삼각함수, 열대 (tropical) 활성화 함수들이 초기화 기법만으로 심층 신경망의 활성화 및 기울기 폭주/소실 문제를 해결하고 GPT-2 와 ConvNeXt 와 같은 대규모 모델의 학습 효율성을 높이며 기존 모델의 미세 조정에도 효과적임을 입증합니다.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

AStar: Boosting Multimodal Reasoning with Automated Structured Thinking

이 논문은 계산 비용이 많이 드는 탐색이나 추가 학습 없이도 '생각 카드'를 통해 외부 명시적 지침과 모델의 내재적 추론 능력을 결합하여 멀티모달 추론 성능을 획기적으로 향상시키는 학습 없는 프레임워크 'AStar'를 제안합니다.

Jinyang Wu, Mingkuan Feng, Guocheng Zhai + 7 more2026-03-03💬 cs.CL

Enhancing Hallucination Detection through Noise Injection

이 논문은 모델의 베이지안적 불확실성을 반영하기 위해 매개변수나 은닉 단위 활성화에 노이즈를 주입하는 간단하고 훈련이 필요 없는 방법을 제안함으로써, 기존 샘플링 방식보다 할루시네이션 탐지 성능을 크게 향상시킨다고 주장합니다.

Litian Liu, Reza Pourreza, Sunny Panchal + 4 more2026-03-03💬 cs.CL

LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

이 논문은 2011 년부터 2024 년까지의 ICPC 세계 대회 문제를 기반으로 GPT-4o, Mistral Large, Llama-3.1-405B, o1 시리즈 등 최신 대형 언어 모델들의 알고리즘 문제 해결 능력을 평가하는 새로운 프레임워크인 LLM-ProS 를 제안하고, 모델의 추론 능력, 정확도, 효율성 및 학습 방법론의 영향을 분석하여 알고리즘 작업 최적화를 위한 통찰을 제공합니다.

Md Sifat Hossain, Anika Tabassum, Md. Fahim Arefin + 1 more2026-03-03💬 cs.CL

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

이 논문은 기존 대형 멀티모달 모델의 한계를 극복하고 적대적 공격에 대한 강건성과 도메인 간 일반화 능력을 향상시키며, hateful meme 탐지 성능과 해석 가능성을 동시에 개선하는 새로운 적응 프레임워크를 제안합니다.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

이 논문은 아랍어와 영어의 선동성 및 혐오성 밈 탐지 및 설명 생성 성능을 획기적으로 개선하기 위해 대규모 설명 강화 데이터셋 'MemeXplain'을 구축하고, 비전 - 언어 모델을 활용한 다단계 최적화 전략을 제안합니다.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

이 논문은 로그 스코링 규칙을 기반으로 한 강화학습을 통해 대규모 언어 모델이 답변과 함께 정확도 예측을 신뢰성 있게 표현하도록 직접 미세조정하는 새로운 방법을 제안하여, 과신과 과소신용을 모두 억제하고 일반화된 신뢰도 인식을 가능하게 합니다.

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

이 논문은 92 개의 오픈소스 언어 모델을 메타 분석하여 모델 크기와 학습 토큰 수 외에 데이터 구성과 아키텍처 설계 결정이 하류 작업 성능에 미치는 영향을 정량화함으로써, 단순한 확장 법칙을 넘어선 모델 설계의 중요성을 규명했습니다.

Emmy Liu, Amanda Bertsch, Lintang Sutawika + 9 more2026-03-03💬 cs.CL

Large Language Models in Bioinformatics: A Survey

이 논문은 DNA, RNA, 단백질 및 단일 세포 데이터 분석을 위한 대규모 언어 모델 (LLM) 의 최근 기술 동향과 주요 과제를 체계적으로 검토하고, 향후 발전 방향을 제시함으로써 생명정보학 및 정밀의학 분야의 혁신적 잠재력을 조명합니다.

Zhenyu Wang, Zikang Wang, Jiyue Jiang + 3 more2026-03-03🧬 q-bio

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

이 논문은 기존 모델이 직면한 긍정 및 부정 쌍의 유사도 분포 중첩 문제를 해결하기 위해 난이도 가중 대비 학습을 도입한 LLaVE 프레임워크를 제안하고, 이를 통해 7B 모델 대비 2B 모델로도 최첨단 성능을 달성하며 텍스트 - 비디오 검색 등 다양한 작업으로의 제로샷 일반화 능력을 입증했습니다.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

← 이전 다음 →