ReMem-VLA: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries
이 논문은 단기 및 장기 기억을 위해 프레임 수준과 청크 수준의 순환 쿼리를 도입하고 과거 관측 예측 보조 목표를 통해 기존 비기억 VLA 모델의 한계를 극복하고 다양한 기억 의존적 작업에서 뛰어난 성능을 보이는 ReMem-VLA 모델을 제안합니다.
8067 편의 논문
이 논문은 단기 및 장기 기억을 위해 프레임 수준과 청크 수준의 순환 쿼리를 도입하고 과거 관측 예측 보조 목표를 통해 기존 비기억 VLA 모델의 한계를 극복하고 다양한 기억 의존적 작업에서 뛰어난 성능을 보이는 ReMem-VLA 모델을 제안합니다.
이 논문은 암호학적 비용 증가 없이 우선순위가 높은 입력을 배치 추론에 효율적으로 통합하여 대기 중인 요청의 지연을 획기적으로 줄이는 새로운 프라이버시 보호 큐 점프 프레임워크 'PrivQJ'를 제안합니다.
이 논문은 고수준의 언어 이해와 저수준의 로봇 제어 간의 간극을 해소하기 위해 번역, 회전, 그리퍼 제어라는 세 가지 해석 가능한 행동 원시 (primitives) 를 중간 계층으로 도입하고, 의미 기반 소프트 라벨 대비 학습 및 적응형 가중치 전략을 통해 새로운 작업에 대한 강력한 일반화 성능을 달성하는 'LaDA' 프레임워크를 제안합니다.
이 논문은 IoT, IoV, 의료 등 동적 환경에서 변화하는 맥락적 요인과 보안 위험을 실시간으로 분석하여 요구사항 충족과 위험 감소를 최적화하는 적응형 인증 방법을 동적으로 선택하는 요구사항 기반 프레임워크를 제안하고 평가합니다.
이 논문은 LVLM 의 백도어 공격이 텍스트 컨텍스트에서 시각 토큰의 주의를 빼앗는 '주의 도난' 현상에 기인한다는 통찰을 바탕으로, 재학습 없이 테스트 시 입력을 정제하여 공격을 방어하는 'CleanSight'라는 새로운 방법을 제안합니다.
이 논문은 사용자가 협력하지 않아도 부정한 거래소 운영자를 탐지할 수 있도록 허가된 벡터 약속 (PVC) 과 KZG/BLS 암호 기술을 결합한 새로운 '허가형 증명 (Permissioned PoL)' 모델을 제안하여, 기존 증명 방식의 결함을 해결하고 서버 성능을 최대 10 배까지 향상시켰음을 보여줍니다.
이 논문은 농업 환경의 공간적 병목 현상을 해결하기 위해 자원 중심 우선순위 기반 경로 분할 전략을 도입한 새로운 다중 로봇 경로 계획 알고리즘을 제안하고, 기존 방법 대비 작업 처리량을 크게 향상시켰음을 시뮬레이션을 통해 입증합니다.
이 논문은 학습 데이터에서 파생된 편향을 교정하면서도 모델의 유용성을 이론적으로 보장하는 폐형식 (closed-form) 해법을 제시하여, 주석 데이터 없이 시각 및 텍스트 모달리티의 교차적 편향을 제거하고 다양한 다운스트림 작업에서 편향 완화와 성능 유지 간의 최적 균형을 달성하는 훈련 없는 방법을 제안합니다.
이 논문은 ETH 와 SETH 를 기반으로 배낭 문제 및 다중 머신 스케줄링 문제들에 대한 기존 의사다항 시간 알고리즘의 하한을 엄밀하게 증명하여, 수십 년 전의 고전 알고리즘이 최적임을 확인하고 Jansen 등 및 Fischer 와 Wennmann 의 오픈 문제를 해결합니다.
이 논문은 2020 년부터 2024 년 5 월까지의 연구를 분석하여, 정서적 지원을 위한 AI 대화 시스템이 과업 특화형 딥러닝 모델에서 대규모 언어 모델 (LLM) 기반 접근법으로 전환됨에 따라 언어적 유연성과 일반화 능력이 향상되었으나 신뢰성과 안전성 문제가 대두되었음을 규명하고 향후 발전 방향을 제시합니다.
이 논문은 주석 없는 도메인에서도 혈관 및 도로 네트워크와 같은 관형 구조물의 위상적 결함을 효과적으로 탐지하기 위해, 자동화된 데이터 수집 파이프라인과 위상 인식 보상 메커니즘을 활용한 강화 학습 기반의 새로운 프레임워크인 Topo-R1 을 제안합니다.
이 논문은 지상참조 이미지 없이도 인간 지각과 정렬된 가상 의상 착용 (VTON) 이미지 품질 평가를 가능하게 하는 참조 없는 프레임워크 'VTON-IQA'와 대규모 인간 주석 데이터셋 'VTON-QBench'를 제안하고, 이를 통해 14 개의 대표 VTON 모델에 대한 포괄적인 벤치마크 평가를 수행합니다.
이 논문은 문자열과 SLP(직선 프로그램) 로 압축된 문자열에 대한 MSO 쿼리의 번째 해를 선형 시간 전처리 후 로그 시간으로 직접 접근할 수 있는 동적 알고리즘을 제안하며, 기존 연구보다 접근 시간을 개선하고 복잡한 편집을 지원하도록 확장했습니다.
이 논문은 제 3 매개체 접촉 방법의 안정성을 높이기 위해 변형률 기울기 평균화 기법을 도입하여, 추가 자유도 없이 1 차 유한 요소 형식을 사용할 수 있는 새로운 정규화 접근법을 제안하고 그 유효성을 검증합니다.
이 논문은 텍스트-이미지 확산 모델의 저작권 및 개인정보 침해 위험을 완화하기 위해, 훈련 중 의미론적 정렬을 유지하면서 과적합을 줄이는 '지역 인식 프롬프트 증강 (RAPTA)'과 대규모 주석 데이터 없이도 복제를 효과적으로 탐지하는 '주도 멀티모달 복제 탐지 (ADMCD)'라는 두 가지 방법을 제안하고 그 유효성을 입증합니다.
이 논문은 풍동 실험 데이터를 기반으로 Kriging 보간법과 UNet, ViTAE, CWGAN 등 세 가지 딥러닝 모델을 비교 분석하여, 희소 센서 데이터로부터 지붕 풍속장을 정확하게 재구성하기 위해 최적의 센서 배치와 혼합 풍향 학습 전략의 중요성을 규명했습니다.
이 논문은 대규모 비디오 생성 모델의 잠재력을 활용하여 1,000 개의 소량 데이터만으로도 다양한 이미지 복원 작업을 단일 모델로 수행할 수 있는 'V-Bridge' 프레임워크를 제안함으로써, 생성 모델과 저수준 비전 작업 간의 경계를 허물고 새로운 패러다임을 제시합니다.
이 논문은 기존 벤치마크가 주로 다루는 추출적 추론을 넘어, MLLM 이 비디오에서 분산된 단서를 통합하고 암시적 구조를 추론하는 '추상적 시공간 추론' 능력을 평가하기 위한 새로운 분류 체계와 VAEX-BENCH 벤치마크를 제안하고, 이를 통해 최신 모델들의 한계와 병목 현상을 분석합니다.
이 논문은 6G 네트워크의 목표 지향적 학습을 위해 무선 채널을 아날로그 집계 레이어로 활용하는 그래프 신경망 기반의 오버더에어 (Over-the-Air) 프레임워크를 제안하여, 밀리미터파 네트워크의 차단 예측 성능을 유지하면서 통신 오버헤드를 획기적으로 줄인다는 점을 강조합니다.
이 논문은 24 만 개 이상의 산업용 부품을 포함하며, 3D 모델과 구조화된 텍스트 및 합성 이미지를 정렬하여 언어 기반 CAD 생성 및 다중 모달 학습을 가능하게 하는 대규모 데이터셋 'SldprtNet'을 제안합니다.