cs.AI 편의 논문 | Gist.Science

The Density of Cross-Persistence Diagrams and Its Applications

이 논문은 교차 지속성 다이어그램의 밀도 존재성을 증명하고, 이를 점 구름 데이터의 분포 예측 및 구분에 활용하는 최초의 머신러닝 프레임워크를 제안하여 기존 기법보다 우수한 성능을 입증합니다.

Alexander Mironenko, Evgeny. Burnaev, Serguei Barannikov2026-03-13🤖 cs.AI

MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models

이 논문은 3D 의료 영상 이해를 위한 비효율적인 계산 과부하를 해결하기 위해, 슬라이드 수준 및 토큰 수준의 중복성을 제거하는 훈련 불필요 계층적 토큰 가지치기 프레임워크 'MedPruner'를 제안하며, 이를 통해 시각 토큰을 5% 미만으로 줄이면서도 성능을 유지하거나 향상시킬 수 있음을 입증했습니다.

Shengyuan Liu, Zanting Ye, Yunrui Lin, Chen Hu, Wanting Geng, Xu Han, Bulat Ibragimov, Yefeng Zheng, Yixuan Yuan2026-03-13🤖 cs.AI

VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought

본 논문은 그래픽 지각 이론에 기반한 인간 유사 해석 그라운딩과 사고 분해 (DoT) 프롬핑팅을 도입하여 차트 기반 시각 추론의 한계를 극복하고, InternVL 기반의 VisDoT 프레임워크를 통해 ChartQA 및 ChartQAPro 등 다양한 벤치마크에서 최첨단 성능을 달성한 연구입니다.

Eunsoo Lee, Jeongwoo Lee, Minki Hong, Jangho Choi, Jihie Kim2026-03-13🤖 cs.AI

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

이 논문은 기하학적 유효성과 제어 가능성을 갖춘 통합 프레임워크 'HouseMind'를 제안하여, 이산형 방 인스턴스 토큰을 활용하여 텍스트 명령에 따라 건축 평면도를 이해, 생성 및 편집하는 멀티모달 대규모 언어 모델을 소개합니다.

Sizhong Qin, Ramon Elias Weber, Xinzheng Lu2026-03-13🤖 cs.AI

IDRL: An Individual-Aware Multimodal Depression-Related Representation Learning Framework for Depression Diagnosis

이 논문은 교차 모달 불일치와 개인별 증상 차이를 해결하기 위해 다중 모달 표현을 해리하고 개인별 가중치 융합을 수행하는 'IDRL' 프레임워크를 제안하여 우울증 진단의 정확성과 견고성을 향상시켰습니다.

Chongxiao Wang, Junjie Liang, Peng Cao, Jinzhu Yang, Osmar R. Zaiane2026-03-13🤖 cs.AI

Stable Spike: Dual Consistency Optimization via Bitwise AND Operations for Spiking Neural Networks

이 논문은 비트 단위 AND 연산을 통해 안정적인 스파이크 골격과 불안정한 스파이크 맵을 분리하고 일관성을 최적화하는 'Stable Spike' 방법을 제안하여, 초저지연 환경에서 스파이킹 신경망 (SNN) 의 인식 정확도와 일반화 성능을 크게 향상시킵니다.

Yongqi Ding, Kunshan Yang, Linze Li, Yiyang Zhang, Mengmeng Jing, Lin Zuo2026-03-13🤖 cs.AI

From Control to Foresight: Simulation as a New Paradigm for Human-Agent Collaboration

이 논문은 인간과 에이전트의 협업이 단순한 개별 행동 제어에서 벗어나, 미래 시나리오를 사전에 시뮬레이션하여 정보에 기반한 의사결정을 가능하게 하는 '시뮬레이션-인-더-루프' 패러다임으로 전환해야 함을 주장합니다.

Gaole He, Brian Y. Lim2026-03-13💬 cs.CL

LLMs can construct powerful representations and streamline sample-efficient supervised learning

이 논문은 LLM 이 소량의 데이터로 전역 및 로컬 규칙을 생성하여 복잡한 임상 데이터를 표준화함으로써, 기존 모델보다 우수한 성능과 감사 용이성, 확장성을 갖춘 효율적인 지도 학습 파이프라인을 제안합니다.

Ilker Demirel, Larry Shi, Zeshan Hussain, David Sontag2026-03-13🤖 cs.AI

Entropy-Preserving Reinforcement Learning

이 논문은 정책 경사 알고리즘이 학습 과정에서 엔트로피가 감소하여 탐색 다양성이 저하되는 문제를 지적하고, REPO 와 ADAPO 와 같은 엔트로피 보존 메커니즘을 제안하여 학습 중 다양성을 유지함으로써 최종 성능과 새로운 환경에서의 연속 학습 능력을 향상시키는 방법을 제시합니다.

Aleksei Petrenko, Ben Lipkin, Kevin Chen, Erik Wijmans, Marco Cusumano-Towner, Raja Giryes, Philipp Krähenbühl2026-03-13🤖 cs.LG

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

이 논문은 FastSpeech2 아키텍처에 명시적인 감정 조건부와 반사실적 훈련 목표를 도입하여 텍스트, 감정, 화자가 말초리 (지속 시간, 피치, 에너지) 를 통해 음성 파형에 미치는 인과적 관계를 모델링함으로써, 언어적 내용과 감정적 프로소디를 분리하고 자연스러운 감정 표현과 정교한 프로소디 제어가 가능한 새로운 TTS 프레임워크를 제안합니다.

Suvendu Sekhar Mohanty2026-03-13🤖 cs.AI

SemBench: A Universal Semantic Framework for LLM Evaluation

이 논문은 사전 정의와 문장 인코더만을 활용하여 자동적으로 생성되는 경량화되고 언어에 구애받지 않는 SemBench 프레임워크를 제안함으로써, 대규모 언어 모델의 의미적 이해 능력을 다양한 언어와 모델에 걸쳐 효율적으로 평가할 수 있음을 보여줍니다.

Mikel Zubillaga, Naiara Perez, Oscar Sainz, German Rigau2026-03-13💬 cs.CL

Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks

이 논문은 블랙박스 형태의 멀티모달 대규모 언어 모델 (MLLM) 의 제로샷 작업 성능을 검증하고 향상시키기 위해, 명시적 논리 추론 채널을 도입하여 일관성 지표를 통한 모델 선택과 신뢰할 수 있는 성능 개선을 가능하게 하는 프레임워크를 제안합니다.

Mei Chee Leong, Ying Gu, Hui Li Tan, Liyuan Li, Nancy Chen2026-03-13🤖 cs.AI

STAIRS-Former: Spatio-Temporal Attention with Interleaved Recursive Structure Transformer for Offline Multi-task Multi-agent Reinforcement Learning

이 논문은 다양한 에이전트 수와 미시적 관측 환경에서 장기적 시간 의존성과 에이전트 간 협력을 효과적으로 포착하기 위해 공간 및 시간 계층 구조와 인터리브드 재귀적 구조를 도입한 STAIRS-Former 를 제안하고, 이를 통해 오프라인 다중 작업 다중 에이전트 강화학습에서 기존 방법들을 능가하는 새로운 최고 성능을 달성했음을 보여줍니다.

Jiwon Jeon, Myungsik Cho, Youngchul Sung2026-03-13🤖 cs.AI

← 이전 다음 →

cs.AI

The Density of Cross-Persistence Diagrams and Its Applications

MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models

VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

IDRL: An Individual-Aware Multimodal Depression-Related Representation Learning Framework for Depression Diagnosis

Stable Spike: Dual Consistency Optimization via Bitwise AND Operations for Spiking Neural Networks

From Control to Foresight: Simulation as a New Paradigm for Human-Agent Collaboration

LLMs can construct powerful representations and streamline sample-efficient supervised learning

Entropy-Preserving Reinforcement Learning

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

SemBench: A Universal Semantic Framework for LLM Evaluation

Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks

STAIRS-Former: Spatio-Temporal Attention with Interleaved Recursive Structure Transformer for Offline Multi-task Multi-agent Reinforcement Learning

OSCBench: Benchmarking Object State Change in Text-to-Video Generation

Scaling Laws for Educational AI Agents

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

When OpenClaw Meets Hospital: Toward an Agentic Operating System for Dynamic Clinical Workflows

Adapting Dijkstra for Buffers and Unlimited Transfers

Gender Bias in Generative AI-assisted Recruitment Processes

CINDI: Conditional Imputation and Noisy Data Integrity with Flows in Power Grid Data