When Slots Compete: Slot Merging in Object-Centric Learning
이 논문은 객체 중심 학습에서 중첩된 슬롯 간의 경쟁을 완화하고 객체 분해 및 분할 성능을 향상시키기 위해, 학습 중 중첩된 슬롯을 자동으로 병합하는 경량화 기법인 '슬롯 머지 (Slot Merging)'를 제안합니다.
7782 편의 논문
이 논문은 객체 중심 학습에서 중첩된 슬롯 간의 경쟁을 완화하고 객체 분해 및 분할 성능을 향상시키기 위해, 학습 중 중첩된 슬롯을 자동으로 병합하는 경량화 기법인 '슬롯 머지 (Slot Merging)'를 제안합니다.
이 논문은 모바일 레이저 스캐닝 데이터와 의미론적 3D 도로 공간 모델을 결합하여 다양한 조건에서 동일 객체 표면의 반사 특성을 그룹화함으로써 '방사능 지문 (radiometric fingerprints)'을 추출하고, 이를 통해 도시 디지털 트윈의 재료 정보 활용 가능성을 확장하는 방법을 제시합니다.
이 논문은 혼합 현실 헤드셋과 단일 RGB 카메라를 활용하여 환자의 신체 메쉬와 골격 정보를 복원하고 이를 기반으로 초음파 탐침의 초기 위치를 자동으로 안내하는 프레임워크를 제안하여 원격 초음파 진단의 진입 장벽을 낮추는 방법을 제시합니다.
이 논문은 실제 시나리오에서 패치 오버피팅 탐지 기법들을 종합적으로 벤치마크한 결과, 기존 도구들이 무작위 선택보다 성능이 낮아 실용적 효과가 제한적임을 밝혔으며, 향후 연구에서는 현실적인 데이터와 무작위 베이스라인을 활용한 평가가 필수적임을 강조합니다.
이 논문은 32 개의 언어 모델을 Verilog 태스크에 적용하여 합성 가능성과 하드웨어 품질을 통합 평가한 결과, 폐쇄형 모델이 심층 합성 오류로, 오픈형 모델이 기본 구조 누락으로 실패하는 경향을 확인하고 합성 피드백 루프를 통한 평가의 중요성을 강조합니다.
이 논문은 제한된 데이터와 해석 가능성이라는 과제를 해결하기 위해 인과적 베이지안 네트워크를 도입하여 로봇의 사회적 항해 행동을 예측하고, 이를 기반으로 반사실적 모션을 생성하여 사용자의 로봇 유능성 인식을 통계적으로 유의미하게 향상시키는 방법을 제안합니다.
본 논문은 다중 노출 LDR 이미지에서 단일 순전파로 고동적 범위 (HDR) 3D 장면을 재구성하는 'InstantHDR'을 제안하며, 이는 기존 최적화 기반 방법과 유사한 품질을 유지하면서 재구성 속도를 약 700 배 향상시킵니다.
이 논문은 노인을 위한 음성 기반 LLM 챗봇을 공동 설계하고 평가한 연구로, '블랙박스'를 '글래스박스' 접근법으로 전환하여 투명성과 이해도를 높였으나 80 세 이상 사용자의 경우 음성 인터페이스에서도 사용성 저하가 발생했음을 밝혀 진정한 연령 포용적 AI 를 위한 제로터치 탐색의 필요성을 강조합니다.
이 논문은 DINOv2 와 WavLM 기반의 표현, 계층적 세분성 정렬 모듈, 그리고 Vision-Mamba 아키텍처를 통합하여 자연 환경에서의 강인한 멀티모달 표정 행동 단위 (AU) 감지를 실현하고 Aff-Wild2 데이터셋에서 최첨단 성능을 달성한 새로운 프레임워크를 제안합니다.
이 논문은 이해와 생성 작업을 통합하는 비전 - 언어 모델의 계산 효율성을 극대화하기 위해 학습 가능한 글로벌 메타 토큰을 활용한 경량화 모듈식 토큰 압축 알고리즘 'UniCompress'를 제안하며, 이를 통해 이미지 토큰 수를 최대 4 배 줄이고 추론 지연 및 훈련 비용을 크게 절감하면서도 성능 저하를 최소화함을 보여줍니다.
이 논문은 이미지 복원 작업에서 기존 UNet 의 번역 불변성 (equivariance) 한계를 해결하기 위해 최첨단 번역 불변 계층을 선택하여 설계한 'UNet-AF'를 제안하고, 이를 통해 경쟁력 있는 성능 유지와 함께 측정된 불변성을 크게 향상시켰음을 입증합니다.
이 논문은 온체인 행동 지표와 시간적으로 정렬된 오픈소스 지능 (OSINT) 신호를 통합하여 데이터 누출을 방지하고 리퀴디티 인출 전에 사기를 조기에 탐지하는 새로운 프레임워크를 제안합니다.
이 논문은 저자기장 MRI 를 고자기장 MRI 로 변환할 때 구조적 불확실성으로 인한 인공물을 방지하고 신뢰할 수 있는 생성을 보장하기 위해, 신뢰도 기반 샘플링과 불확실성 인식 다중 후보 선택 방식을 통합한 'ReDiff'라는 새로운 확산 모델을 제안합니다.
이 논문은 다항식 파라미터화와 시공간 할당 그래프 기반의 ADMM 을 결합하여 비볼록 환경에서 이산적 공간과 연속적 시간을 동시에 최적화함으로써 기존 접근법보다 우수한 궤적을 효율적으로 생성하는 수치 솔버를 제안합니다.
이 논문은 물리 기반 시뮬레이션에서 인간 간의 상호작용과 힘 전달을 모방하기 위해 파트너 인식 정책을 공동으로 학습하는 다중 에이전트 강화학습 프레임워크인 AssistMimic 을 제안하여, 기존 단일 동작 추적을 넘어 돌봄 및 보조 시나리오에 적합한 인간형 로봇 제어를 가능하게 합니다.
본 논문은 외부 신호 주입 없이 가동식 평면 거울을 이용해 LiDAR 스캔에 유령 포인트를 생성하고 스캔 매칭을 교란하여 최신 보안 LiDAR 시스템에서도 심각한 위치 추정 오차를 유발하는 'MirrorDrift'라는 새로운 물리적 공격 기법을 제안하고 그 유효성을 실증합니다.
이 논문은 기존 LiDAR 스푸핑 기법의 한계를 극복하여 환경에 구애받지 않는 새로운 공격 방식인 D-SLAMSpoof 를 제안하고, 자율주행 시스템의 표준 센서만 활용하여 이를 탐지하고 보정하는 실용적 방어 메커니즘 ISD-SLAM 을 제시합니다.
이 논문은 자율주행의 악천후 및 센서 고장 상황을 이해하기 위해 4 가지 시각 모달리티와 다양한 시나리오를 포함한 대규모 데이터셋 'DriveXQA'와 모달리티 간 중복을 줄여 성능을 향상시킨 'MVX-LLM' 아키텍처를 제안합니다.
이 논문은 고정된 전역 프로젝터와 위상 기반 PnP 재투사 기법을 도입하여 기존 ICP 등록의 한계를 극복하고, 대규모 3D 매핑에서 서브밀리미터 수준의 고정밀 6 자유도 포즈 추정과 균질한 표면 및 낮은 중첩 영역에서도 견고한 성능을 달성하는 새로운 방법을 제안합니다.
이 논문은 제한된 도메인 내 레이블 데이터와 다른 도메인의 레이블 데이터를 활용하여, 임베딩 표현을 기반으로 도메인 간 효율적인 샘플 선택을 수행하는 저자원 엔티티 매칭을 위한 BEACON 프레임워크를 제안하고 그 우수성을 입증합니다.