EmoStory: Emotion-Aware Story Generation
이 논문은 추상적인 감정을 구체적인 시각적 요소로 변환하고 일관성을 유지하는 것이 핵심인 새로운 '감성 인식 스토리 생성' 과제를 해결하기 위해, 에이전트 기반의 스토리 기획과 영역 인식 생성을 결합한 'EmoStory' 프레임워크를 제안하고 기존 방법보다 뛰어난 성능을 입증합니다.
4968 편의 논문
이 논문은 추상적인 감정을 구체적인 시각적 요소로 변환하고 일관성을 유지하는 것이 핵심인 새로운 '감성 인식 스토리 생성' 과제를 해결하기 위해, 에이전트 기반의 스토리 기획과 영역 인식 생성을 결합한 'EmoStory' 프레임워크를 제안하고 기존 방법보다 뛰어난 성능을 입증합니다.
이 논문은 시각적 가림과 불완전한 촉각 감지 문제를 해결하기 위해 물리 - 기하학적 이중성을 기반으로 한 매개변수화된 평형 다양체 (Equilibrium Manifold) 를 도입하고, 촉각 SLAM 과 적응형 강성 제어를 통합한 폐루프 프레임워크를 통해 도구 매개 조작의 인간 수준의 민첩성을 달성함을 보여줍니다.
본 논문은 LLM 어텐션 헤드 간 이질적인 희소성 특성을 활용하여 크로스-GPU 리소스 버블을 최소화하는 '희소성 인식 헤드 병렬 부하 균형 (S-HPLB)' 전략을 제안함으로써, 품질 저하 없이 평균 어텐션 계산 지연 시간을 2.88 배 단축함을 보여줍니다.
이 논문은 추가적인 제약 없이 임의의 참조 이미지를 입력받아 의미론적 영역 분할, 클러스터링된 영역 매칭, 그리고 스타일 전이 최적화라는 세 가지 핵심 단계를 통해 기존 방법의 한계를 극복하고 개인화된 스타일 전이를 가능하게 하는 훈련 없는 프레임워크인 'StyleGallery'를 제안합니다.
이 논문은 시각 토큰을 증강된 의미 강화와 가지치기를 통한 부정적 샘플 생성이라는 두 가지 방식으로 조작하여 MLLM 의 환각을 해결하는 통합 프레임워크를 제안함으로써, 언어 편향을 보정하고 객체 환각을 효과적으로 줄입니다.
이 논문은 비전 기반 모델의 시맨틱 지도와 잠재 정규화, 동적 노이즈 샘플링 기법을 통해 재구성 안정성과 압축 효율을 극대화하고, ImageNet-1K 벤치마크에서 기존 최첨단 방법론을 압도하는 성능을 달성한 '기하학적 오토인코더 (GAE)' 프레임워크를 제안합니다.
이 논문은 멀티모달 언어 모델이 2D 단서만으로는 부족하다고 판단할 때 기하학적 정보를 자율적으로 활성화하여 공간 추론 능력을 향상시키는 'GeoSense' 프레임워크를 제안합니다.
이 논문은 대규모 주식 데이터를 기반으로 자산 수익률 예측 및 포트폴리오 구성을 위한 조건부 확산 모델을 구현하여, 요인 차원성과 편향 - 분산 트레이드오프 간의 관계를 규명하고 최적의 일반화 성능을 달성하는 중간 수준의 요인 수를 통해 기존 포트폴리오 전략을 능가함을 보여줍니다.
본 논문은 로컬 환경에서 실행되는 오픈소스 AI 에이전트 프레임워크인 OpenClaw 의 심각한 보안 취약점을 분석하고, MITRE ATLAS 및 ATT&CK 기반의 공격 시나리오 테스트를 통해 인간 개입 (HITL) 방어 레이어가 기존 시스템의 취약점을 보완하여 방어율을 획기적으로 향상시킬 수 있음을 입증합니다.
이 논문은 NASA 의 NOS3 시뮬레이션 환경을 활용하여 공급망 내 악성 부품이 탑재된 위성의 내부 센서 스푸핑 공격을 실증하고, 이를 통해 우주 임무의 무결성과 가용성을 위협하는 새로운 위협 벡터를 규명하며 대응 방안을 제시합니다.
이 논문은 인간과 유사한 스캔 전략을 모방하는 확산 정책 (Diffusion Policy) 과 점유 그리드 매핑을 결합하여, 기존 강화학습 기반 방법들의 데이터 비효율성과 일반화 한계를 극복하고 다양한 미지의 물체에 대해 높은 커버리지와 효율성을 보장하는 범용 3D 스캐닝 프레임워크인 ScanDP 를 제안합니다.
이 논문은 스마트폰을 움직이는 애니메이션으로 변환하여 그룹 토론 중 수동적인 참여자를 다시 활성화하고 그룹 역동성 및 과업 수행을 향상시키는 'AnimaStand' 시스템의 효과와 가능성을 탐구합니다.
이 논문은 기존 메트릭의 한계를 극복하고 참양성과 거짓양성 간의 공정한 균형을 위해 검출된 모든 포즈의 신뢰도 점수를 고려하여 최적 수송 이론을 기반으로 한 새로운 평가 지표인 'OCpose'를 제안합니다.
이 논문은 유연성으로 인한 불안정성을 해결하기 위해 계층적 신경망과 운동학 지식을 결합한 'SpatioCoupledNet'을 제안하여, 기존 분석적 및 순수 데이터 기반 제어기보다 정밀도와 수렴 속도가 뛰어난 초고도 redundant 로봇의 형상 제어 성능을 입증했습니다.
이 논문은 커널 밀도 추정을 활용하여 가우시안 궤적 예측기의 불확실성을 칼리브레이션하는 새로운 손실 함수를 제안함으로써, 자율 주행의 안전한 계획 수립을 위한 신뢰성 있는 확률적 통찰력을 제공합니다.
이 논문은 복잡한 장면에서도 비디오 생성의 시각적 품질, 물리적 일관성, 정밀한 제어라는 삼중 과제를 해결하기 위해 '점-형태-외관' 계층적 패러다임을 통해 물리적 추론과 시각적 합성을 명시적으로 분리하고, 마스킹된 포인트 복구 전략을 통해 모델이 물리 법칙을 학습하도록 하는 '모션 포싱 (Motion Forcing)' 프레임워크를 제안합니다.
이 논문은 생성형 검색의 최적화 차단과 기하학적 충돌 문제를 해결하기 위해, 가변적 강제 학습과 대칭 가중치 공유를 통한 연산 통합 및 단위 초구에서의 등방성 기하학적 최적화를 제안하는 '미분 가능 기하학적 인덱싱 (DGI)'을 소개합니다.
이 논문은 시공간적 상관관계를 해치지 않으면서 텍스처 손실을 방지하기 위해, 무손실 시간적 일관성 모델링과 비무손실 공간적 텍스처 복원을 명시적으로 분리하는 2 단계 프레임워크인 'Frames2Residual(F2R)'을 제안하여 자기지도 학습 기반 비디오 잡음 제거 성능을 획기적으로 개선합니다.
이 논문은 확산 MRI 트라크토그래피 분석에서 서로 다른 작업인 트라크그램 등록과 스트라일라인 클러스터링을 단일 최적화 체계 내에서 결합하여 상호 보완적 정보를 활용하는 통합 확률적 학습 프레임워크 'TractoRC'를 제안하고, 이를 통해 기존 독립적 방법보다 두 작업의 성능을 모두 크게 향상시킨다고 설명합니다.
이 논문은 픽셀 의존성을 줄이고 가변적인 작업 길이에 대응하기 위해 잠재 공간 정렬과 LLM 기반 기술 분해 파이프라인을 도입한 'World2Act' 프레임워크를 제안하여, 시각 - 언어 - 행동 정책의 일반화 성능을 획기적으로 향상시켰음을 보여줍니다.