Chunk-Boundary Artifact in Action-Chunked Generative Policies: A Noise-Sensitive Failure Mechanism
이 논문은 생성형 비전 - 모션 정책에서 작업 실패와 밀접하게 연관된 '조각 경계 아티팩트'가 단순한 실행 결함이 아니라 노이즈에 민감하고 방향성을 가진 개입이 가능한 실패 메커니즘임을 규명하고, 이를 통해 정책의 안정성을 개선할 수 있음을 보여줍니다.
7584 편의 논문
이 논문은 생성형 비전 - 모션 정책에서 작업 실패와 밀접하게 연관된 '조각 경계 아티팩트'가 단순한 실행 결함이 아니라 노이즈에 민감하고 방향성을 가진 개입이 가능한 실패 메커니즘임을 규명하고, 이를 통해 정책의 안정성을 개선할 수 있음을 보여줍니다.
이 논문은 고차원 및 멱법칙 그래프에서 기존 BFS 의 O(D) 단계 복잡도 한계를 극복하기 위해 GPU 에 최적화된 PR-RST 알고리즘과 GConn 기반의 오일러 투어 루팅 방식을 비교 분석한 결과, 후자가 최적화된 BFS 대비 최대 300 배의 속도 향상을 보여줌으로써 GPU 그래프 분석에서 RST 구성 전략의 재검토가 필요함을 시사합니다.
이 논문은 이진 방향성 주의 의존성으로 인한 높은 지연 시간을 해결하기 위해, 비동기적 블록 인과 정렬, 오디오 싱크 토큰 메커니즘, 그리고 결합 자기 강제 증류 기법을 도입하여 단일 GPU 에서 약 25 FPS 의 실시간 고품질 오디오 - 비디오 생성을 가능하게 한 'OmniForcing' 프레임워크를 제안합니다.
이 논문은 비시저리 푸시다운 오토마타의 대안으로서 서로 호출할 수 있는 오토마타 집합으로 구성된 '비시저리 재귀 오토마타 (VRAs)'를 제안하고, 그 언어 이론적 연산 및 결정 문제의 복잡성을 분석하며 표현력을 제한하지 않는 '코드터미니즘' 개념을 도입하여 VRAs 의 보충 연산 구현 등 알고리즘적 이점을 입증합니다.
이 논문은 시뮬레이션 데이터만으로 훈련된 심층 신경망을 통해 불확실성을 예측하여 기존 Unscented Kalman Filter 의 성능을 개선하고, 다양한 차량 및 환경 조건에서 내비게이션 정확도를 12.7% 향상시킨 하이브리드 추정 프레임워크를 제안합니다.
이 논문은 시연 데이터를 물체 중심 기술로 분해하고 불확실성 인식 추정기를 통해 정렬하는 'DexMulti'라는 효율적인 접근법을 제시하여, 기존 단일 정책 기반 방법보다 적은 시연 데이터로 복잡한 동시 조작 과제를 성공적으로 수행하고 높은 일반화 성능을 달성했습니다.
이 논문은 텐서 트라이 분해를 통해 고차원 구성 공간을 압축하고 이를 그래프 최적화 (GCS) 와 결합하여 효율적이고 확장 가능한 로봇 경로 계획 프레임워크인 TANGO 를 제안합니다.
이 논문은 의료 영상 분할을 위한 연합 학습의 공정한 평가를 위해 10 가지 영상 모달리티와 9 가지 분할 작업을 포괄하는 첫 번째 종합 벤치마크인 FL-MedSegBench 를 소개하고, 다양한 연합 학습 방법의 성능을 다각도로 분석하여 임상 적용을 위한 실증적 가이드라인을 제시합니다.
이 논문은 대규모 오디오 언어 모델 (LALM) 에서 도출된 온라인 피드백을 활용하여 텍스트 - 오디오 생성을 강화 학습 (GRPO) 으로 개선한 'Resonate' 모델을 제안하며, 이를 통해 오디오 품질과 의미적 정합성 측면에서 새로운 최첨단 성능을 달성했음을 보여줍니다.
이 논문은 사전 학습된 비전 인코더의 백도어 공격을 재학습 없이 추론 시에 탐지하는 제로샷 방법인 BackdoorIDS 를 제안하며, 점진적 마스킹 하에서의 어텐션 변화와 임베딩 클러스터링을 활용하여 기존 방어 기법보다 우수한 성능을 보입니다.
이 논문은 유동 매칭 기반의 DiT 아키텍처와 잠재 공간의 다중 모달 조건 결합 및 자기 참조 메커니즘을 활용하여, 기존 가상 의류 입기 (VTON) 방법들보다 높은 화질과 추론 효율성을 동시에 달성하는 프롬프트 기반 프레임워크 'PROMO'를 제안합니다.
이 논문은 국소 텍스처와 장기 의존성을 효율적으로 모델링하고 큰 커널 모듈과 교차 계층 매개변수 공유를 통해 계산 비용을 줄인 경량 초해상도 네트워크 UCAN 을 제안하여, 제한된 자원으로 높은 정확도와 확장성을 달성함을 보여줍니다.
이 논문은 YOLO11 아키텍처를 기반으로 어텐션 메커니즘과 CARAFE 등을 개선한 'COTONET'을 제안하여, 다양한 생육 단계의 목화 꼬투리를 정밀하게 탐지하고 엣지 디바이스에서도 효율적으로 작동할 수 있도록 함으로써 목화 수확 자동화의 정확도와 품질을 향상시켰습니다.
이 논문은 부분 관측 가능성과 반-밴딧 피드백 하에서 전략적 생태적 적대자 (예: 코끼리) 에 대한 적응형 자원 배분 정책을 학습하여 기존 균형 기반 접근법의 한계를 극복하고, HERDS 알고리즘을 통해 인간 - 코끼리 갈등을 효과적으로 완화하는 온라인 학습 프레임워크를 제시합니다.
이 논문은 추가 하드웨어 없이 SRAM 기반의 물리적 비클론 가능 함수 (PUF) 와 부울 논리를 결합하여 임베디드 소프트웨어의 민감한 지식재산권을 보호하고, 무단 복제 시에도 최적의 성능을 발휘하지 못하도록 하는 새로운 기법을 제안합니다.
이 논문은 가상 의류 착용 (VTON) 시나리오에서 범용 다중 참조 이미지 편집 모델의 성능을 체계적으로 평가하기 위해 24,220 개의 테스트 데이터와 새로운 평가 지표인 VTEdit-QA 를 포함한 'VTEdit-Bench'를 제안하고, 범용 편집 모델이 기존 특수 모델 대비 복잡한 상황에서도 견고한 일반화 능력을 보이지만 다중 의류 조건에서는 여전히 과제가 있음을 규명했습니다.
본 논문은 불일치하는 확산 상태를 해결하는 '이웃 강제 (Neighbor Forcing)' 전략과 고정 길이 표현을 통한 무한 생성이 가능한 'ConvKV 메모리'를 도입하여, 기존 방법론의 한계를 극복하고 20 FPS 실시간 스트리밍이 가능한 고품질 시간 단위 인간 애니메이션을 실현한 SoulX-LiveAct 를 제안합니다.
PhiPlot 은 대기 관련 분자 데이터의 고차원적 특성을 탐색하고 대기 에어로졸 형성 연구에 기여하기 위해 시각화, 군집화, 그리고 도메인 지식 기반 차원 축소 기능을 통합한 웹 기반 대화형 탐색 환경을 제시합니다.
이 논문은 가시성 없는 관절의 불확실성을 해결하고 3D 구조 일관성을 보장하는 희소 3D 손 관절을 제어 신호로 활용하여, 고충실도 이고센트릭 비디오 생성과 로봇 손 등 다양한 신체 구조로의 일반화를 가능하게 하는 새로운 프레임워크를 제안합니다.
이 논문은 무방향 그래프의 경우와 동일한 최적 시간 복잡도인 으로 방향 그래프의 모든 방향성 신장 트리를 나열할 수 있도록, 신장 트리가 매우 적은 그래프에 대한 순수 그래프 이론적 특성을 규명하고 이를 활용하여 알고리즘을 개선한 결과를 제시합니다.