Towards Instance Segmentation with Polygon Detection Transformers
이 논문은 고해상도 입력과 경량 실시간 추론 간의 상충 관계를 해결하기 위해, 밀집 픽셀 예측 대신 극좌표 표현을 통한 희소 정점 회귀로 인스턴스 분할을 재정의한 'Poly-DETR'을 제안하고, 다양한 데이터셋에서 기존 마스크 기반 방법보다 뛰어난 성능과 효율성을 입증합니다.
3462 편의 논문
이 논문은 고해상도 입력과 경량 실시간 추론 간의 상충 관계를 해결하기 위해, 밀집 픽셀 예측 대신 극좌표 표현을 통한 희소 정점 회귀로 인스턴스 분할을 재정의한 'Poly-DETR'을 제안하고, 다양한 데이터셋에서 기존 마스크 기반 방법보다 뛰어난 성능과 효율성을 입증합니다.
이 논문은 Return-Oriented Programming 에서 영감을 얻어, 해로운 의도와는 무관한 benign 한 시각적 요소들을 논리적으로 연결하여 대형 시각 - 언어 모델의 안전 장치를 우회하는 'Reasoning-Oriented Programming'이라는 새로운 공격 패러다임과 이를 자동화하는 프레임워크를 제안합니다.
이 논문은 인간의 인지 과학에 기반한 '익숙도'와 '회상'의 이중 과정을 모방하여, 사용자의 기억을 효율적이고 정확하게 검색하는 적응형 개인화 LLM 프레임워크인 RF-Mem 을 제안합니다.
이 논문은 카라시 - 쿠 - 터커 조건을 기반으로 스택버그 게임을 적용하여 Platooning as a Service(PlaaS) 플랫폼의 최적 가격 정책과 서비스 계약을 도출하고, 정부 보조금 및 다양한 운영 변수가 플레이어의 효용과 탄소 배출에 미치는 영향을 분석하여 지속 가능한 교통 체계를 제시합니다.
이 논문은 이질적인 노드 특징을 가진 멀티모달 그래프 학습의 유연성과 표현력을 향상시키기 위해, 모달리티별 가상 노드를 도입하여 동적 정보 경로를 통해 적응적이고 희소한 메시지 전파를 가능하게 하는 새로운 프레임워크인 DiP 를 제안하고 다양한 벤치마크에서 기존 방법보다 우수한 성능을 입증합니다.
이 논문은 웹 기반 실내 투어 비디오에서 3D 재구성 없이 RGB 프레임으로부터 암시적 기하 표현을 추출하여 시뮬레이터 데이터의 한계를 극복하고, 다양한 벤치마크에서 새로운 최첨단 성능과 강력한 제로샷 내비게이션 능력을 달성하는 대규모 비전 - 언어 내비게이션 프레임워크를 제안합니다.
이 논문은 가상현실 (VR) 회의에서 지연 시간이 사용자 경험에 미치는 영향을 분석하기 위해 전통적인 화상 회의와 비교하여 상호작용의 유창성과 사회적 존재감을 평가하고, 이를 통해 몰입형 가상 환경 최적화를 위한 통찰을 제공합니다.
이 논문은 유클리드 평면에서 비교차 제약 조건 하에 온라인으로 도착하는 가중치 점들의 매칭 문제를 연구하여, 결정론적 알고리즘의 한계를 밝히고 무작위화를 통한 상수 경쟁비 달성 가능성, 다양한 변형 문제에 대한 경계, 그리고 최적해를 위한 조언 복잡도 상한을 제시합니다.
이 논문은 원격 증강현실 협업에서 작업 특성에 따른 지각적 상호작용 유창성 (PIF) 을 평가하기 위해 자유 에너지 원리를 기반으로 작업 인지 차이를 고려한 TPIFM 모델을 제안하고, 이를 통해 네트워크 제약 하의 적응형 시스템 설계에 기여함을 보여줍니다.
이 논문은 산업용 텍스트-3D 생성의 한계를 해결하기 위해 카테고리 간 지식 간섭을 제거하는 다중 전문가 LoRA 앙상블과 고차원 구조적 의존성을 포착하는 교차 뷰 하이퍼그래프 기하 강화 방식을 결합한 'ForgeDreamer' 프레임워크를 제안합니다.
이 논문은 다중 사용자가 증강현실 (MR) 환경에서 손으로 서로 접촉하며 각자의 지각 세계가 균근 네트워크처럼 교차하고 혼합되는 'FungiSync'라는 체험을 통해, 인간 중심적 개인주의를 넘어선 균류적 상호의존성과 관계적 윤리를 신체적으로 체감할 수 있는 새로운 방식을 제시합니다.
이 논문은 3D 가우스의 크기를 주기적으로 축소하고 알파 블렌딩에 엔트로피 제약을 도입하여 픽셀당 가우스 리스트 길이를 줄이고 렌더링 해상도를 점진적으로 증가시키는 전략을 통해, 렌더링 품질을 유지하면서 3D 가우스 스플래팅의 학습 효율성을 획기적으로 향상시켰습니다.
이 논문은 그림자, 급격한 움직임, 결함이 있는 마스크와 같은 현실 세계의 불완전한 조건에서도 안정적인 비디오 객체 제거를 가능하게 하는 세 가지 핵심 설계 (MUSE, DA-Seg, 커리큘럼 2 단계 학습) 를 통해 새로운 최첨단 성능을 달성한 'Stable Video Object Removal (SVOR)' 프레임워크를 제안합니다.
이 논문은 3D 형상을 볼록체 집합으로 분해하는 기존 문제를 해결하기 위해 특징 필드 학습을 도입하여, 대규모 데이터셋에서 자기지도 학습이 가능한 최초의 오픈 월드 볼록 분해 모델을 제안합니다.
이 논문은 텍스트-이미지 생성 과정에서 이미지 사용자가 인지하는 정서적 반응이나 기억력 등 인지적 속성을 다차원적으로 정밀하게 제어할 수 있도록 'Cognitive Space'와 'Semantic Manifold' 간의 매핑을 기반으로 한 새로운 프레임워크 'CogBlender'를 제안합니다.
이 논문은 다양한 모달리티 간의 고유한 차이를 고려한 모달리티 인식 퓨전과 RGB 및 X 모달 스트림의 시계열 정보를 독립적으로 처리하는 분해된 시간 전파 메커니즘을 도입하여, 다섯 가지 멀티모달 추적 벤치마크에서 최첨단 성능을 달성한 새로운 프레임워크 MDTrack 을 제안합니다.
이 논문은 오픈소스 코드 저장소를 자동으로 표준화하여 LLM 에이전트가 신뢰성 있게 실행할 수 있는 MCP 호환 도구를 생성하고, 이를 통해 인간의 개입을 최소화하면서 다양한 과학 분야에서 작업 수행 능력을 향상시키는 'ToolRosetta' 프레임워크를 제안합니다.
이 논문은 작업 진행 상황을 명시적인 마일스톤으로 감지하고 실패 시 복구하는 'See, Plan, Rewind (SPR)' 프레임워크를 제안하여, 추가 학습 없이도 LIBERO 및 LIBERO-Plus 벤치마크에서 기존 모델보다 뛰어난 강건성과 일반화 성능을 달성함을 보여줍니다.
이 논문은 네트워크 지연이 네트워킹 가상현실 (NVR) 화이트보드 협업의 실용적 및 쾌락적 차원 QoE 에 미치는 영향을 다양한 협업 모드와 플랫폼 (아바타 유무, PC 기반) 을 비교 분석하여 체계적으로 규명하고 최적화 방안을 제시합니다.
이 논문은 여러 작업 간 간섭을 방지하고 새로운 작업을 순차적으로 학습할 수 있도록 단일 VLA 백본에 작업별 경량 LoRA 전문가를 동적으로 연결하는 확장 가능한 로봇 학습 프레임워크 'CORAL'을 제안합니다.