MICA: Multi-Agent Industrial Coordination Assistant
이 논문은 제한된 컴퓨팅 자원과 엄격한 프라이버시 제약 하에서도 실시간으로 작업 지시를 제공하고 안전성을 보장하기 위해 5 개의 역할 특화 에이전트와 적응형 단계 융합 (ASF) 기술을 활용한 새로운 멀티에이전트 산업 조율 어시스턴트 'MICA'를 제안하고 그 유효성을 검증합니다.
2939 편의 논문
이 논문은 제한된 컴퓨팅 자원과 엄격한 프라이버시 제약 하에서도 실시간으로 작업 지시를 제공하고 안전성을 보장하기 위해 5 개의 역할 특화 에이전트와 적응형 단계 융합 (ASF) 기술을 활용한 새로운 멀티에이전트 산업 조율 어시스턴트 'MICA'를 제안하고 그 유효성을 검증합니다.
이 논문은 대규모 시각-언어 모델 (LVLM) 이 비일관적인 맥락에서 객체 인식에 실패하는 문제를 해결하기 위해 'ORIC' 프레임워크와 벤치마크를 제안하고, 이를 통해 모델의 신뢰성을 향상시키는 방법을 제시합니다.
이 논문은 이진 이벤트 스트림의 푸리에 도메인 교차 상관 방식을 활용하여 기존 카메라 기반 시스템보다 약 3.5 배 빠른 2.88ms 의 처리 지연을 달성하고, 낮과 밤의 다양한 환경에서 3000m 이상 성공적으로 주행하며 횡방향 오차를 15cm 이하로 유지하는 실시간 이벤트 기반 시각 교시 및 반복 (VT&R) 항법 시스템을 제안합니다.
이 논문은 현재 비디오 벤치마크가 청각 정보를 제대로 평가하지 못해 음성 인코더가 배제되는 문제를 지적하고, LLaVA-OneVision 기반의 확장 모델을 통해 청각 정보가 대화 이해 및 교차 모달 작업에서 명확한 성능 향상을 가져온다는 것을 입증합니다.
이 논문은 단일 이미지로부터 고충실도 표면과 SDF 장을 수 초 내에 효율적으로 재구성하는 경량 프레임워크인 FINS 를 제안하여 기존 방법들의 한계를 극복하고 로봇 표면 추종 작업 등 다양한 응용 분야에 그 유효성을 입증합니다.
본 논문은 Visual Geometry Grounded Transformers(VGGT) 의 막대한 계산 및 메모리 비용을 해결하기 위해, 활성화 분포의 꼬리 무거운 문제와 다중 뷰 데이터의 불안정성을 각각 해결하는 '이중 평활화 세밀 양자화'와 '노이즈 필터링 다양성 샘플링' 기술을 도입한 양자화 프레임워크 QuantVGGT 를 제안하며, 4 비트 양자화 시 3.7 배의 메모리 감소와 2.5 배의 속도 향상을 달성하면서도 98% 이상의 재구성 정확도를 유지함을 보여줍니다.
이 논문은 단일 트랜스포머 디코더 레이어 내에서의 쿼리 충돌 문제를 해결하기 위해 프레임 간 객체 운동을 명시적으로 예측하여 트랙 쿼리를 사전에 업데이트하는 '모션 인식 트랜스포머 (MATR)'를 제안함으로써, 추가 데이터 없이도 DanceTrack, SportsMOT, BDD100k 등 다양한 벤치마크에서 최첨단 성능을 달성한 다중 객체 추적 모델을 소개합니다.
이 논문은 3D 가우스 스플래팅을 기반으로 반사 표면에서도 높은 정밀도의 메쉬 재구성을 가능하게 하는 재료 인식 최적화 프레임워크인 GS-2M 을 제안하며, 외부 모델 의존 없이 다중 뷰 광도 변이를 활용한 거칠기 감독 전략을 통해 신경망 구성 요소를 제거하고 고품질 삼각 메쉬를 생성합니다.
이 논문은 비전 기반 모델 (VFMs) 을 강력한 교사 모델로 활용하여 자기 학습 패러다임 내에서 도메인 적응형 멀티 태스크 밀도 예측을 수행하는 효율적인 프레임워크인 FAMDA 를 제안하며, 이를 통해 로봇 공학 응용 분야에서 최첨단 성능을 달성하면서도 경량화된 모델을 구현합니다.
이 논문은 양자화 및 어텐션 희소화 기법을 통합하여 비디오 생성 모델의 계산 비용과 메모리 사용량을 획기적으로 줄이면서도 성능 저하를 최소화하는 'QuantSparse' 프레임워크를 제안합니다.
이 논문은 텍스트, 음악, 이전 모션 등 다양한 입력에 기반하여 두 사람의 상호작용적이고 반응적인 3D 모션을 생성하는 최초의 통합 프레임워크인 DualFlow 를 제안하며, 정렬 흐름 (Rectified Flow) 과 검색 증강 생성 (RAG) 기법을 활용하여 추론 속도를 높이고 의미적 정합성 및 동기화를 개선한 것을 보여줍니다.
본 논문은 혈역학의 나비에-스토크스 방정식에서 유도된 물리 기반의 제 2 차 동적 시스템을 바탕으로, 제로 FLOPs 축 스와퍼, 적응형 공간 필터, 게이트형 TCN 을 결합한 경량 모델 PHASE-Net 을 제안하여 헤드 모션과 조명 변화 하에서도 높은 정확도와 효율성을 갖춘 원격 광용적맥파 (rPPG) 측정 솔루션을 제시합니다.
이 논문은 안과 질환의 조기 진단과 편향 평가를 지원하기 위해 12 가지 질환과 5 가지 영상 모달리티를 아우르는 대규모 멀티모달 데이터셋 LMOD+ 와 24 개의 최신 멀티모달 대규모 언어 모델에 대한 체계적인 벤치마크 평가를 제시합니다.
이 논문은 오토레거시 비디오 확산 모델에서 발생하는 잠재 공간의 분포 편차와 맥락 간섭 문제를 해결하기 위해, 학습 없이도 사용자가 언제든지 원하는 대상을 자유롭게 변형하고 조작할 수 있는 'DragStream'이라는 새로운 스트리밍 드래그 기반 비디오 조작 프레임워크를 제안합니다.
이 논문은 강화 학습 기반의 자기회귀 (AR) 모델인 AR-Drag 을 제안하여, 기존 양방향 확산 모델의 지연 문제를 해결하고 저지연으로 정밀한 모션 제어가 가능한 고품질 실시간 이미지-동영상 생성을 실현했습니다.
본 논문은 2018 년부터 2025 년까지 뇌 영상 분야에서 라벨 없이 병변을 탐지하기 위해 적용된 비지도 딥 생성 모델 연구 33 건을 체계적으로 검토하여, 이러한 방법론의 잠재력과 방법론적 이질성 및 외부 검증 부족과 같은 한계점을 종합적으로 분석했습니다.
이 논문은 오디오-비주얼 세분화 작업에서 발생하는 다중 모달 의미 드리프트와 공발생 혼란 문제를 해결하기 위해 충돌 기반 다중 모달 리허설 (CMR) 프레임워크를 제안하고, 이를 통해 기존 단일 모달 방법보다 우수한 성능을 입증합니다.
본 논문은 자율주행의 하류 인식 작업 성능 향상을 위해 3D 어셋 렌더링과 세계 모델 미세 조정을 결합한 새로운 합성 데이터 생성 프레임워크인 Dream4Drive 와 대규모 3D 자산 데이터셋을 제안하여, 기존 방법론의 한계를 극복하고 다양한 훈련 조건에서 인식 모델의 성능을 효과적으로 개선함을 보여줍니다.
이 논문은 다양한 동적 장면에서 3D 가우시안 스플래팅의 성능을 향상시키기 위해 볼륨 인식 픽셀 라우터를 통해 이질적인 변형 사전 지식을 통합한 'MoE-GS'를 제안하고, 효율성 저하를 완화하기 위한 최적화 기법과 증류 전략을 함께 제시합니다.
본 논문은 다양한 데이터 밀도와 분포 외 (OOD) 데이터에 대한 일반화 문제를 해결하기 위해 범용 컨텍스트 모델과 인스턴스 적응형 미세 조정 (IAFT) 전략을 도입한 범용 포인트 클라우드 압축 프레임워크 'AnyPcc'를 제안하여, 기존 방법들의 한계를 극복하고 새로운 최첨단 성능을 달성함을 보여줍니다.