cs.AI 편의 논문 | Gist.Science

Toward Complex-Valued Neural Networks for Waveform Generation

이 논문은 복소수 연산을 기반으로 한 생성기와 판별자, 위상 양자화, 그리고 블록 행렬 계산 기법을 도입하여 기존 실수 기반 모델보다 더 높은 음질과 25% 의 훈련 시간 단축을 달성한 새로운 복소수 신경 보코더 'ComVo'를 제안합니다.

Hyung-Seok Oh, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan Lee2026-03-13🤖 cs.AI

Leveraging Large Language Models and Survival Analysis for Early Prediction of Chemotherapy Outcomes

이 논문은 대규모 언어 모델 (LLM) 과 생존 분석을 결합하여 실제 임상 데이터에서 암 진행 및 독성 같은 예측 변수를 추출하고, 이를 통해 화학요법 치료 결과를 조기에 예측하여 개인화된 치료 계획 수립을 가능하게 하는 새로운 접근법을 제시합니다.

Muhammad Faisal Shahid, Asad Afzal, Abdullah Faiz, Muhammad Siddiqui, Arbaz Khan Shehzad, Fatima Aftab, Muhammad Usamah Shahid, Muddassar Farooq2026-03-13🤖 cs.AI

Performance Evaluation of Open-Source Large Language Models for Assisting Pathology Report Writing in Japanese

이 논문은 7 가지 오픈소스 대규모 언어 모델 (LLM) 을 평가하여, 추론과 오타 수정 작업에서는 특정 모델이 우수했으나 설명 텍스트에 대한 선호도는 평가자에 따라 크게 달라, 일본어 병리 보고서 작성 보조를 위해 오픈소스 LLM 이 제한적이지만 임상적으로 의미 있는 시나리오에서 유용할 수 있음을 시사합니다.

Masataka Kawai, Singo Sakashita, Shumpei Ishikawa, Shogo Watanabe, Anna Matsuoka, Mikio Sakurai, Yasuto Fujimoto, Yoshiyuki Takahara, Atsushi Ohara, Hirohiko Miyake, Genichiro Ishii2026-03-13💬 cs.CL

Survival Meets Classification: A Novel Framework for Early Risk Prediction Models of Chronic Diseases

이 논문은 당뇨병, 고혈압 등 5 가지 주요 만성질환의 조기 위험 예측을 위해 생존 분석과 분류 기법을 통합한 새로운 프레임워크를 제안하며, 실제 전자의무기록 (EMR) 데이터를 통해 기존 최첨단 모델보다 우수한 성능과 임상적으로 검증된 설명 가능성을 입증했습니다.

Shaheer Ahmad Khan, Muhammad Usamah Shahid, Muddassar Farooq2026-03-13🤖 cs.LG

See, Symbolize, Act: Grounding VLMs with Spatial Representations for Better Gameplay

이 논문은 비전 - 언어 모델 (VLM) 의 게임 플레이 성능 향상을 위해 시각적 프레임과 상징적 표현을 결합하는 방식을 연구한 결과, 상징 추출의 정확도가 신뢰할 수 있을 때만 상징적 그라운딩이 효과적이며, 인식의 질이 향후 VLM 기반 에이전트의 핵심 병목 요소임을 밝혔습니다.

Ashish Baghel, Paras Chopra2026-03-13🤖 cs.AI

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

이 논문은 오토노머스 LLM 에이전트인 OpenClaw 의 보안 위협을 분석하기 위해 초기화부터 실행까지의 5 단계 수명 주기 프레임워크를 제시하고, 간접 프롬프트 인젝션 및 메모리 중독 등 복합적 위협을 규명하며 기존 방어 기법의 한계를 지적하고 통합적 보안 아키텍처의 필요성을 강조합니다.

Xinhao Deng, Yixiang Zhang, Jiaqing Wu, Jiaqi Bai, Sibo Yi, Zhuoheng Zou, Yue Xiao, Rennai Qiu, Jianan Ma, Jialuo Chen, Xiaohu Du, Xiaofang Yang, Shiwen Cui, Changhua Meng, Weiqiang Wang, Jiaxing Song, Ke Xu, Qi Li2026-03-13🤖 cs.AI

The Density of Cross-Persistence Diagrams and Its Applications

이 논문은 교차 지속성 다이어그램의 밀도 존재성을 증명하고, 이를 점 구름 데이터의 분포 예측 및 구분에 활용하는 최초의 머신러닝 프레임워크를 제안하여 기존 기법보다 우수한 성능을 입증합니다.

Alexander Mironenko, Evgeny. Burnaev, Serguei Barannikov2026-03-13🤖 cs.AI

MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models

이 논문은 3D 의료 영상 이해를 위한 비효율적인 계산 과부하를 해결하기 위해, 슬라이드 수준 및 토큰 수준의 중복성을 제거하는 훈련 불필요 계층적 토큰 가지치기 프레임워크 'MedPruner'를 제안하며, 이를 통해 시각 토큰을 5% 미만으로 줄이면서도 성능을 유지하거나 향상시킬 수 있음을 입증했습니다.

Shengyuan Liu, Zanting Ye, Yunrui Lin, Chen Hu, Wanting Geng, Xu Han, Bulat Ibragimov, Yefeng Zheng, Yixuan Yuan2026-03-13🤖 cs.AI

VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought

본 논문은 그래픽 지각 이론에 기반한 인간 유사 해석 그라운딩과 사고 분해 (DoT) 프롬핑팅을 도입하여 차트 기반 시각 추론의 한계를 극복하고, InternVL 기반의 VisDoT 프레임워크를 통해 ChartQA 및 ChartQAPro 등 다양한 벤치마크에서 최첨단 성능을 달성한 연구입니다.

Eunsoo Lee, Jeongwoo Lee, Minki Hong, Jangho Choi, Jihie Kim2026-03-13🤖 cs.AI

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

이 논문은 기하학적 유효성과 제어 가능성을 갖춘 통합 프레임워크 'HouseMind'를 제안하여, 이산형 방 인스턴스 토큰을 활용하여 텍스트 명령에 따라 건축 평면도를 이해, 생성 및 편집하는 멀티모달 대규모 언어 모델을 소개합니다.

Sizhong Qin, Ramon Elias Weber, Xinzheng Lu2026-03-13🤖 cs.AI

IDRL: An Individual-Aware Multimodal Depression-Related Representation Learning Framework for Depression Diagnosis

이 논문은 교차 모달 불일치와 개인별 증상 차이를 해결하기 위해 다중 모달 표현을 해리하고 개인별 가중치 융합을 수행하는 'IDRL' 프레임워크를 제안하여 우울증 진단의 정확성과 견고성을 향상시켰습니다.

Chongxiao Wang, Junjie Liang, Peng Cao, Jinzhu Yang, Osmar R. Zaiane2026-03-13🤖 cs.AI

Stable Spike: Dual Consistency Optimization via Bitwise AND Operations for Spiking Neural Networks

이 논문은 비트 단위 AND 연산을 통해 안정적인 스파이크 골격과 불안정한 스파이크 맵을 분리하고 일관성을 최적화하는 'Stable Spike' 방법을 제안하여, 초저지연 환경에서 스파이킹 신경망 (SNN) 의 인식 정확도와 일반화 성능을 크게 향상시킵니다.

Yongqi Ding, Kunshan Yang, Linze Li, Yiyang Zhang, Mengmeng Jing, Lin Zuo2026-03-13🤖 cs.AI

From Control to Foresight: Simulation as a New Paradigm for Human-Agent Collaboration

이 논문은 인간과 에이전트의 협업이 단순한 개별 행동 제어에서 벗어나, 미래 시나리오를 사전에 시뮬레이션하여 정보에 기반한 의사결정을 가능하게 하는 '시뮬레이션-인-더-루프' 패러다임으로 전환해야 함을 주장합니다.

Gaole He, Brian Y. Lim2026-03-13💬 cs.CL

LLMs can construct powerful representations and streamline sample-efficient supervised learning

이 논문은 LLM 이 소량의 데이터로 전역 및 로컬 규칙을 생성하여 복잡한 임상 데이터를 표준화함으로써, 기존 모델보다 우수한 성능과 감사 용이성, 확장성을 갖춘 효율적인 지도 학습 파이프라인을 제안합니다.

Ilker Demirel, Larry Shi, Zeshan Hussain, David Sontag2026-03-13🤖 cs.AI

Entropy-Preserving Reinforcement Learning

이 논문은 정책 경사 알고리즘이 학습 과정에서 엔트로피가 감소하여 탐색 다양성이 저하되는 문제를 지적하고, REPO 와 ADAPO 와 같은 엔트로피 보존 메커니즘을 제안하여 학습 중 다양성을 유지함으로써 최종 성능과 새로운 환경에서의 연속 학습 능력을 향상시키는 방법을 제시합니다.

Aleksei Petrenko, Ben Lipkin, Kevin Chen, Erik Wijmans, Marco Cusumano-Towner, Raja Giryes, Philipp Krähenbühl2026-03-13🤖 cs.LG

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

이 논문은 FastSpeech2 아키텍처에 명시적인 감정 조건부와 반사실적 훈련 목표를 도입하여 텍스트, 감정, 화자가 말초리 (지속 시간, 피치, 에너지) 를 통해 음성 파형에 미치는 인과적 관계를 모델링함으로써, 언어적 내용과 감정적 프로소디를 분리하고 자연스러운 감정 표현과 정교한 프로소디 제어가 가능한 새로운 TTS 프레임워크를 제안합니다.

Suvendu Sekhar Mohanty2026-03-13🤖 cs.AI

SemBench: A Universal Semantic Framework for LLM Evaluation

이 논문은 사전 정의와 문장 인코더만을 활용하여 자동적으로 생성되는 경량화되고 언어에 구애받지 않는 SemBench 프레임워크를 제안함으로써, 대규모 언어 모델의 의미적 이해 능력을 다양한 언어와 모델에 걸쳐 효율적으로 평가할 수 있음을 보여줍니다.

Mikel Zubillaga, Naiara Perez, Oscar Sainz, German Rigau2026-03-13💬 cs.CL

Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks

이 논문은 블랙박스 형태의 멀티모달 대규모 언어 모델 (MLLM) 의 제로샷 작업 성능을 검증하고 향상시키기 위해, 명시적 논리 추론 채널을 도입하여 일관성 지표를 통한 모델 선택과 신뢰할 수 있는 성능 개선을 가능하게 하는 프레임워크를 제안합니다.

Mei Chee Leong, Ying Gu, Hui Li Tan, Liyuan Li, Nancy Chen2026-03-13🤖 cs.AI

STAIRS-Former: Spatio-Temporal Attention with Interleaved Recursive Structure Transformer for Offline Multi-task Multi-agent Reinforcement Learning

이 논문은 다양한 에이전트 수와 미시적 관측 환경에서 장기적 시간 의존성과 에이전트 간 협력을 효과적으로 포착하기 위해 공간 및 시간 계층 구조와 인터리브드 재귀적 구조를 도입한 STAIRS-Former 를 제안하고, 이를 통해 오프라인 다중 작업 다중 에이전트 강화학습에서 기존 방법들을 능가하는 새로운 최고 성능을 달성했음을 보여줍니다.

Jiwon Jeon, Myungsik Cho, Youngchul Sung2026-03-13🤖 cs.AI

OSCBench: Benchmarking Object State Change in Text-to-Video Generation

이 논문은 텍스트 기반 비디오 생성 모델의 객체 상태 변화 (OSC) 능력을 평가하기 위해 요리 데이터를 기반으로 한 새로운 벤치마크인 OSCBench 를 제안하고, 기존 모델들이 의미적 정합성은 우수하지만 새로운 및 복합적인 상황에서의 객체 상태 변화 구현에는 여전히 한계가 있음을 밝힙니다.

Xianjing Han, Bin Zhu, Shiqi Hu, Franklin Mingzhe Li, Patrick Carrington, Roger Zimmermann, Jingjing Chen2026-03-13💬 cs.CL

← 이전 다음 →