Toward Complex-Valued Neural Networks for Waveform Generation
이 논문은 복소수 연산을 기반으로 한 생성기와 판별자, 위상 양자화, 그리고 블록 행렬 계산 기법을 도입하여 기존 실수 기반 모델보다 더 높은 음질과 25% 의 훈련 시간 단축을 달성한 새로운 복소수 신경 보코더 'ComVo'를 제안합니다.
3549 편의 논문
이 논문은 복소수 연산을 기반으로 한 생성기와 판별자, 위상 양자화, 그리고 블록 행렬 계산 기법을 도입하여 기존 실수 기반 모델보다 더 높은 음질과 25% 의 훈련 시간 단축을 달성한 새로운 복소수 신경 보코더 'ComVo'를 제안합니다.
이 논문은 대규모 언어 모델 (LLM) 과 생존 분석을 결합하여 실제 임상 데이터에서 암 진행 및 독성 같은 예측 변수를 추출하고, 이를 통해 화학요법 치료 결과를 조기에 예측하여 개인화된 치료 계획 수립을 가능하게 하는 새로운 접근법을 제시합니다.
이 논문은 7 가지 오픈소스 대규모 언어 모델 (LLM) 을 평가하여, 추론과 오타 수정 작업에서는 특정 모델이 우수했으나 설명 텍스트에 대한 선호도는 평가자에 따라 크게 달라, 일본어 병리 보고서 작성 보조를 위해 오픈소스 LLM 이 제한적이지만 임상적으로 의미 있는 시나리오에서 유용할 수 있음을 시사합니다.
이 논문은 당뇨병, 고혈압 등 5 가지 주요 만성질환의 조기 위험 예측을 위해 생존 분석과 분류 기법을 통합한 새로운 프레임워크를 제안하며, 실제 전자의무기록 (EMR) 데이터를 통해 기존 최첨단 모델보다 우수한 성능과 임상적으로 검증된 설명 가능성을 입증했습니다.
이 논문은 비전 - 언어 모델 (VLM) 의 게임 플레이 성능 향상을 위해 시각적 프레임과 상징적 표현을 결합하는 방식을 연구한 결과, 상징 추출의 정확도가 신뢰할 수 있을 때만 상징적 그라운딩이 효과적이며, 인식의 질이 향후 VLM 기반 에이전트의 핵심 병목 요소임을 밝혔습니다.
이 논문은 오토노머스 LLM 에이전트인 OpenClaw 의 보안 위협을 분석하기 위해 초기화부터 실행까지의 5 단계 수명 주기 프레임워크를 제시하고, 간접 프롬프트 인젝션 및 메모리 중독 등 복합적 위협을 규명하며 기존 방어 기법의 한계를 지적하고 통합적 보안 아키텍처의 필요성을 강조합니다.
이 논문은 교차 지속성 다이어그램의 밀도 존재성을 증명하고, 이를 점 구름 데이터의 분포 예측 및 구분에 활용하는 최초의 머신러닝 프레임워크를 제안하여 기존 기법보다 우수한 성능을 입증합니다.
이 논문은 3D 의료 영상 이해를 위한 비효율적인 계산 과부하를 해결하기 위해, 슬라이드 수준 및 토큰 수준의 중복성을 제거하는 훈련 불필요 계층적 토큰 가지치기 프레임워크 'MedPruner'를 제안하며, 이를 통해 시각 토큰을 5% 미만으로 줄이면서도 성능을 유지하거나 향상시킬 수 있음을 입증했습니다.
본 논문은 그래픽 지각 이론에 기반한 인간 유사 해석 그라운딩과 사고 분해 (DoT) 프롬핑팅을 도입하여 차트 기반 시각 추론의 한계를 극복하고, InternVL 기반의 VisDoT 프레임워크를 통해 ChartQA 및 ChartQAPro 등 다양한 벤치마크에서 최첨단 성능을 달성한 연구입니다.
이 논문은 기하학적 유효성과 제어 가능성을 갖춘 통합 프레임워크 'HouseMind'를 제안하여, 이산형 방 인스턴스 토큰을 활용하여 텍스트 명령에 따라 건축 평면도를 이해, 생성 및 편집하는 멀티모달 대규모 언어 모델을 소개합니다.
이 논문은 교차 모달 불일치와 개인별 증상 차이를 해결하기 위해 다중 모달 표현을 해리하고 개인별 가중치 융합을 수행하는 'IDRL' 프레임워크를 제안하여 우울증 진단의 정확성과 견고성을 향상시켰습니다.
이 논문은 비트 단위 AND 연산을 통해 안정적인 스파이크 골격과 불안정한 스파이크 맵을 분리하고 일관성을 최적화하는 'Stable Spike' 방법을 제안하여, 초저지연 환경에서 스파이킹 신경망 (SNN) 의 인식 정확도와 일반화 성능을 크게 향상시킵니다.
이 논문은 인간과 에이전트의 협업이 단순한 개별 행동 제어에서 벗어나, 미래 시나리오를 사전에 시뮬레이션하여 정보에 기반한 의사결정을 가능하게 하는 '시뮬레이션-인-더-루프' 패러다임으로 전환해야 함을 주장합니다.
이 논문은 LLM 이 소량의 데이터로 전역 및 로컬 규칙을 생성하여 복잡한 임상 데이터를 표준화함으로써, 기존 모델보다 우수한 성능과 감사 용이성, 확장성을 갖춘 효율적인 지도 학습 파이프라인을 제안합니다.
이 논문은 정책 경사 알고리즘이 학습 과정에서 엔트로피가 감소하여 탐색 다양성이 저하되는 문제를 지적하고, REPO 와 ADAPO 와 같은 엔트로피 보존 메커니즘을 제안하여 학습 중 다양성을 유지함으로써 최종 성능과 새로운 환경에서의 연속 학습 능력을 향상시키는 방법을 제시합니다.
이 논문은 FastSpeech2 아키텍처에 명시적인 감정 조건부와 반사실적 훈련 목표를 도입하여 텍스트, 감정, 화자가 말초리 (지속 시간, 피치, 에너지) 를 통해 음성 파형에 미치는 인과적 관계를 모델링함으로써, 언어적 내용과 감정적 프로소디를 분리하고 자연스러운 감정 표현과 정교한 프로소디 제어가 가능한 새로운 TTS 프레임워크를 제안합니다.
이 논문은 사전 정의와 문장 인코더만을 활용하여 자동적으로 생성되는 경량화되고 언어에 구애받지 않는 SemBench 프레임워크를 제안함으로써, 대규모 언어 모델의 의미적 이해 능력을 다양한 언어와 모델에 걸쳐 효율적으로 평가할 수 있음을 보여줍니다.
이 논문은 블랙박스 형태의 멀티모달 대규모 언어 모델 (MLLM) 의 제로샷 작업 성능을 검증하고 향상시키기 위해, 명시적 논리 추론 채널을 도입하여 일관성 지표를 통한 모델 선택과 신뢰할 수 있는 성능 개선을 가능하게 하는 프레임워크를 제안합니다.
이 논문은 다양한 에이전트 수와 미시적 관측 환경에서 장기적 시간 의존성과 에이전트 간 협력을 효과적으로 포착하기 위해 공간 및 시간 계층 구조와 인터리브드 재귀적 구조를 도입한 STAIRS-Former 를 제안하고, 이를 통해 오프라인 다중 작업 다중 에이전트 강화학습에서 기존 방법들을 능가하는 새로운 최고 성능을 달성했음을 보여줍니다.
이 논문은 텍스트 기반 비디오 생성 모델의 객체 상태 변화 (OSC) 능력을 평가하기 위해 요리 데이터를 기반으로 한 새로운 벤치마크인 OSCBench 를 제안하고, 기존 모델들이 의미적 정합성은 우수하지만 새로운 및 복합적인 상황에서의 객체 상태 변화 구현에는 여전히 한계가 있음을 밝힙니다.