Word-Anchored Temporal Forgery Localization
이 논문은 기존 시간적 위조 국소화 방법의 한계를 극복하기 위해, 언어적 경계에 기반한 단어 단위 이진 분류 패러다임과 위조 특징 정렬 모듈, 그리고 불균형 데이터 처리를 위한 비대칭 손실 함수를 도입한 'WAFL'을 제안하여 높은 정확도와 효율성을 달성함을 보여줍니다.
4137 편의 논문
이 논문은 기존 시간적 위조 국소화 방법의 한계를 극복하기 위해, 언어적 경계에 기반한 단어 단위 이진 분류 패러다임과 위조 특징 정렬 모듈, 그리고 불균형 데이터 처리를 위한 비대칭 손실 함수를 도입한 'WAFL'을 제안하여 높은 정확도와 효율성을 달성함을 보여줍니다.
이 논문은 이벤트 카메라의 공간적 희소성을 활용하여 긴 시퀀스 훈련의 병렬화와 추론 시의 낮은 지연 시간을 동시에 달성하는 '공간적 희소 선형 어텐션 (SSLA)'을 제안하고, 이를 기반으로 한 SSLA-Det 모델을 통해 기존 비동기식 방법 대비 20 배 이상의 계산 효율 향상과 함께 최첨단 객체 탐지 정확도를 달성했다고 요약할 수 있습니다.
이 논문은 가변적인 관측 길이를 가진 자율주행 환경에서 과거 데이터의 누락을 보충하고 장기적 운동 패턴을 지식 증류로 전이하는 'TaPD' 프레임워크를 제안하여, 특히 짧은 관측 데이터에서도 기존 방법들보다 뛰어난 궤적 예측 성능을 달성함을 보여줍니다.
이 논문은 여러 작업 간 특이 공간의 방향적 일관성을 유지하기 위해 작업 벡터의 에너지 분포를 균형화하고 공유 직교 부분 공간에 정렬하는 'DC-Merge' 방법을 제안하여 모델 병합 성능을 획기적으로 개선합니다.
이 논문은 2D 분할 마스크를 활용한 계층적 시각 의미 분해와 점군 및 언어 간의 점진적 다중 수준 융합을 통해 3D 장면에서 자연어에 기반한 정밀한 객체 분할을 가능하게 하는 HCF-RES 프레임워크를 제안합니다.
이 논문은 대규모 언어 모델의 자기회귀 능력을 활용하여 3D 객체 추적을 시공간적 의미 시퀀스 생성 문제로 재정의함으로써, 기존 폐쇄집합 기반 방법론의 한계를 극복하고 미지의 객체에 대한 일반화 성능을 획기적으로 향상시킨 'NOVA'라는 새로운 패러다임을 제안합니다.
이 논문은 고정된 비전 기반 모델을 활용하여 눈, 머리 방향, 제스처 및 맥락적 단어를 적응적으로 결합하는 'GazeMoE'라는 새로운 프레임워크를 제안함으로써, 로봇이 인간의 주시 대상을 파악하는 데 있어 기존 방법보다 뛰어난 성능을 달성함을 보여줍니다.
이 논문은 이동체 탑재용 실시간 드론 탐지 시스템인 ODD-SEC 를 제안하며, 360 도 시야를 제공하는 회전형 이벤트 카메라와 모션 보상이 불필요한 새로운 이벤트 표현 방식을 통해 기존 프레임 기반 시스템의 한계를 극복하고 정밀한 드론 탐지 및 방향 추정을 가능하게 합니다.
이 논문은 비전-언어 모델의 압축 과정에서 발생하는 객체 환각 문제를 완화하면서도 작업 유용성과 압축률 간의 균형을 사용자가 제어할 수 있도록, 시각 민감도 신호와 다목적 강화학습을 활용한 계층적 선호도 기반 구조 가지치기 프레임워크인 HiPP-Prune 을 제안합니다.
이 논문은 확산 트랜스포머 (DiT) 기반의 초해상도 모델에서 발생하는 궤적 불일치 및 주기적 아티팩트 문제를 해결하기 위해 주파수 분포 매칭과 비대칭 판별식 증류 아키텍처를 도입한 'StrSR'이라는 원스텝 증류 프레임워크를 제안합니다.
이 논문은 3D 시맨틱 오큐팬시 예측에서 발생하는 레이블 노이즈 문제를 해결하기 위해, 기존 2D 기법의 한계를 극복하고 신뢰할 수 있는 감독 신호를 구축하는 새로운 벤치마크 'OccNL'과 이중 소스 부분 레이블 추론을 활용한 'DPR-Occ' 프레임워크를 제안합니다.
이 논문은 생성 제로샷 학습에서 클래스 간 격차와 의미-시각 도메인 간격을 해결하기 위해 클래스별 속성 분포를 모델링하고 시각 구조에 맞춰 의미 표현을 정렬하는 'ADiVA' 방법을 제안하여 기존 최첨단 기법들을 크게 능가하는 성능을 입증합니다.
본 논문은 사전 학습된 텍스트 - 비디오 생성 모델의 초기 잠재 예측을 직접 활용하여 시간적 정보를 추출하고 속도 정규화 전략을 도입함으로써, 기존 방법 대비 계산 비용과 유연성 문제를 해결하는 효율적이고 훈련이 필요 없는 비디오 모션 전이 프레임워크인 FlowMotion 을 제안합니다.
이 논문은 2D 투영 간의 상관관계를 고려하지 않는 기존 방법의 한계를 극복하기 위해, 서로 다른 두 평면에서 학습된 수직 스코어 기반 확산 모델을 결합하여 치과 CBCT 영상의 임플란트 아티팩트를 제거하는 3D 인페인팅 기법을 제안하고 그 유효성을 입증합니다.
이 논문은 자동회귀 비전 - 언어 모델의 복잡한 토큰 생성 과정과 시각 - 언어 상호작용을 해석하기 위해, 레이어별 그래디언트와 동적 헤드 필터링을 통해 토큰 및 시퀀스 수준의 2D 히트맵을 생성하는 새로운 설명 가능성 방법인 DEX-AR 을 제안하고 다양한 벤치마크에서 그 유효성을 입증합니다.
이 논문은 사전 학습된 생성 모델의 잠재 공간에서 교란을 최적화하여 기존 픽셀 기반 공격보다 이종 모델 간 전이 성능이 뛰어나고 고주파 노이즈가 적은 새로운 적대적 예제 공격 기법인 LTA 를 제안합니다.
이 논문은 고정된 텍스트 프롬프트와 공간 도메인 특징의 한계를 극복하기 위해, 변분 오토인코더 기반의 글로벌 의미 표현과 웨이블릿 분해를 활용한 다중 주파수 특징을 통합한 'WMoE-CLIP'을 제안하여 14 개 산업 및 의료 데이터셋에서 제로샷 이상 탐지 성능을 입증했습니다.
이 논문은 주석 데이터 없이 포인트 클라우드 시맨틱 분할을 수행하기 위해 일관된 구조 학습과 일관된 추론을 기반으로 한 프로토타입 라이브러리 구동 방식인 P-SLCR 을 제안하며, S3DIS, SemanticKITTI, Scannet 데이터셋에서 기존 비지도 방법 및 PointNet 과 같은 완전 지도 방법보다 우수한 성능을 입증했습니다.
이 논문은 12 명의 현대 예술가들의 참여를 통해 ChatGPT 가 생성한 원작의 파스티시 (pastiche) 를 분석한 결과, AI 는 색채나 질감은 모방할 수 있으나 구성, 개념, 정서적 깊이 등 본질적인 측면에서 한계를 보였음을 밝히고 단일 지표 대신 다각적인 평가 도구의 필요성을 주장합니다.
이 논문은 멀티모달 결합과 비균일한 시간 역학으로 인한 기존 캐싱 기법의 한계를 극복하기 위해 곡률 기반 예측과 혼돈 우선 적응적 스킵핑을 도입한 'WorldCache'를 제안하여, 학습 없이도 확산 기반 월드 모델의 추론 속도를 최대 3.7 배 가속화하면서도 롤아웃 품질을 98% 유지한다고 요약할 수 있습니다.