IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding
이 논문은 비주얼 grounding 기반의 VLM 시스템에서 기존 정적 트리거 방식의 한계를 극복하고, 텍스트에 기반하여 동적으로 생성되는 은밀한 백도어 공격 기법인 IAG 를 제안하여 다양한 모델과 데이터셋에서 높은 성공률과 은폐성을 입증했습니다.
2408 편의 논문
이 논문은 비주얼 grounding 기반의 VLM 시스템에서 기존 정적 트리거 방식의 한계를 극복하고, 텍스트에 기반하여 동적으로 생성되는 은밀한 백도어 공격 기법인 IAG 를 제안하여 다양한 모델과 데이터셋에서 높은 성공률과 은폐성을 입증했습니다.
이 논문은 긴 형식의 비디오 이해를 위해 기존 프레임 기반 접근법의 한계를 극복하고, LLM 을 활용한 능동적 메모리 에이전트가 쿼리 관련 순간을 식별하고 일관된 사건으로 그룹화하여 간결하고 신뢰할 수 있는 '이벤트 타임라인'을 생성하는 훈련 없는 프레임워크인 Video-EM 을 제안합니다.
이 논문은 LLM 과 잠재 확산 모델을 결합하여 3D 표현의 생성, 상상, 공간적 시각 질문 답변을 통합적으로 수행하는 최초의 프레임워크인 'UniUGG'를 제안하고, 기하학적 - 의미론적 학습 전략을 통해 3D 이해 및 생성 성능을 향상시킨다는 내용입니다.
이 논문은 확산 모델 기반 3D 인간 자세 추정에서 프레임 및 시맨틱 수준에서 불필요한 토큰을 계층적으로 제거하는 '계층적 시간 가지치기 (HTP)' 전략을 제안하여, 기존 방법 대비 추론 속도를 81.1% 향상시키면서도 최첨단 성능을 달성함을 보여줍니다.
본 논문은 볼륨 기반과 필러 기반 방법 간의 정확도와 효율성 트레이드오프를 해결하기 위해 3D 포인트 클라우드를 2D 슬라이스로 변환하고 수직 기하학적 관계를 보존하는 '슬라이스 상호작용 네트워크 (SIN)'를 도입하여, Waymo 및 nuScenes 등 주요 데이터셋에서 높은 정확도와 효율성을 동시에 달성한 'PointSlice'를 제안합니다.
이 논문은 분산된 의료 환경에서 다양한 MRI 모달리티와 데이터의 이질성을 해결하기 위해, 모달리티를 분해하고 기억하는 메커니즘을 도입한 새로운 연방 학습 프레임워크인 MDM-MixMFL 을 제안하여 MRI 영상 분할 성능을 향상시키는 방법을 제시합니다.
이 논문은 YOLO 객체 감지 모델과 커스텀 차선 추정 알고리즘을 활용하여 외부 관측 기법으로 분산 및 음주 운전 등 비연결 차량의 위험 운전 행위를 실시간으로 분류하는 새로운 프레임워크를 제안하고 그 유효성을 검증합니다.
이 논문은 7 개 해부학적 영역의 9,700 개 이상의 주석이 포함된 대규모 데이터셋으로 학습된 UltraUPConvNet 을 제안하여, 기존 AI 연구에서 분리되어 수행되던 초음파 질병 예측과 조직 분할을 단일 효율적인 프레임워크로 통합하고 우수한 성능을 달성함을 보여줍니다.
이 논문은 불확실성이 높은 교통 환경에서 기존 사례 기반 추론의 한계를 극복하고, 다중 소스 데이터와 호기심 기반 정제 메커니즘을 활용해 명시적 검색 없이도 구조화된 사례 공간을 학습하여 자율 주행 의사결정 성능을 향상시키는 'Traffic-MLLM' 프레임워크를 제안합니다.
본 논문은 기존 선형 어텐션의 낮은 랭크 제약과 특징 중복 문제를 해결하기 위해 입력 적응형 게이트를 도입하여 KV 특징 맵을 선택적으로 조절하는 SAGA 를 제안함으로써, 고해상도 이미지 처리 시 계산 효율성과 모델 정확도를 동시에 크게 향상시켰음을 보여줍니다.
이 논문은 실제 배포 환경에서 정답 레이블 없이도 객체 탐지 모델의 신뢰성을 지속적으로 평가하고 비교할 수 있는 모델 독립적인 지표인 '누적 합의 점수 (CCS)'를 제안합니다.
이 논문은 기존 데이터셋의 한계를 극복하고 도시 가로수 재고 관리를 위한 10 가지 이상의 태스크를 지원하며, 두 도시에서 수집된 21,007 개의 주석된 나무 인스턴스를 포함하는 다중 모달 벤치마크 데이터셋인 'WHU-STree'를 소개하고 그 잠재력과 향후 연구 방향을 제시합니다.
이 논문은 제한된 컴퓨팅 자원과 엄격한 프라이버시 제약 하에서도 실시간으로 작업 지시를 제공하고 안전성을 보장하기 위해 5 개의 역할 특화 에이전트와 적응형 단계 융합 (ASF) 기술을 활용한 새로운 멀티에이전트 산업 조율 어시스턴트 'MICA'를 제안하고 그 유효성을 검증합니다.
이 논문은 대규모 시각-언어 모델 (LVLM) 이 비일관적인 맥락에서 객체 인식에 실패하는 문제를 해결하기 위해 'ORIC' 프레임워크와 벤치마크를 제안하고, 이를 통해 모델의 신뢰성을 향상시키는 방법을 제시합니다.
이 논문은 이진 이벤트 스트림의 푸리에 도메인 교차 상관 방식을 활용하여 기존 카메라 기반 시스템보다 약 3.5 배 빠른 2.88ms 의 처리 지연을 달성하고, 낮과 밤의 다양한 환경에서 3000m 이상 성공적으로 주행하며 횡방향 오차를 15cm 이하로 유지하는 실시간 이벤트 기반 시각 교시 및 반복 (VT&R) 항법 시스템을 제안합니다.
이 논문은 현재 비디오 벤치마크가 청각 정보를 제대로 평가하지 못해 음성 인코더가 배제되는 문제를 지적하고, LLaVA-OneVision 기반의 확장 모델을 통해 청각 정보가 대화 이해 및 교차 모달 작업에서 명확한 성능 향상을 가져온다는 것을 입증합니다.
이 논문은 단일 이미지로부터 고충실도 표면과 SDF 장을 수 초 내에 효율적으로 재구성하는 경량 프레임워크인 FINS 를 제안하여 기존 방법들의 한계를 극복하고 로봇 표면 추종 작업 등 다양한 응용 분야에 그 유효성을 입증합니다.
본 논문은 Visual Geometry Grounded Transformers(VGGT) 의 막대한 계산 및 메모리 비용을 해결하기 위해, 활성화 분포의 꼬리 무거운 문제와 다중 뷰 데이터의 불안정성을 각각 해결하는 '이중 평활화 세밀 양자화'와 '노이즈 필터링 다양성 샘플링' 기술을 도입한 양자화 프레임워크 QuantVGGT 를 제안하며, 4 비트 양자화 시 3.7 배의 메모리 감소와 2.5 배의 속도 향상을 달성하면서도 98% 이상의 재구성 정확도를 유지함을 보여줍니다.
이 논문은 단일 트랜스포머 디코더 레이어 내에서의 쿼리 충돌 문제를 해결하기 위해 프레임 간 객체 운동을 명시적으로 예측하여 트랙 쿼리를 사전에 업데이트하는 '모션 인식 트랜스포머 (MATR)'를 제안함으로써, 추가 데이터 없이도 DanceTrack, SportsMOT, BDD100k 등 다양한 벤치마크에서 최첨단 성능을 달성한 다중 객체 추적 모델을 소개합니다.
이 논문은 3D 가우스 스플래팅을 기반으로 반사 표면에서도 높은 정밀도의 메쉬 재구성을 가능하게 하는 재료 인식 최적화 프레임워크인 GS-2M 을 제안하며, 외부 모델 의존 없이 다중 뷰 광도 변이를 활용한 거칠기 감독 전략을 통해 신경망 구성 요소를 제거하고 고품질 삼각 메쉬를 생성합니다.