DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance
이 논문은 전방 시야의 한계를 극복하고 차선 변경 및 보행자 상호작용 등 주변 환경까지 포괄하는 360 도 운전 시선 예측을 위해 대규모 데이터셋 'DriverGaze360' 과 객체 분할을 활용한 'DriverGaze360-Net' 모델을 제안합니다.
4155 편의 논문
이 논문은 전방 시야의 한계를 극복하고 차선 변경 및 보행자 상호작용 등 주변 환경까지 포괄하는 360 도 운전 시선 예측을 위해 대규모 데이터셋 'DriverGaze360' 과 객체 분할을 활용한 'DriverGaze360-Net' 모델을 제안합니다.
이 논문은 Miller 의 법칙과 인간의 문제 해결 패턴에 영감을 받아, 동적 시각 정보 획득과 단계별 추론을 가능하게 하는 'Reason Chunking' 메커니즘을 도입하고 CRUX 데이터셋 및 점진적 학습 전략을 통해 다중 모달 수학 추론 성능을 획기적으로 향상시킨 ViRC 프레임워크를 제안합니다.
본 논문은 방사선 치료 계획에서 장기 의존성을 효과적으로 포착하고 물리적으로 타당한 조도 맵을 생성하기 위해, 두 단계 설계와 물리 기반 손실 함수를 통합한 트랜스포머 기반 프레임워크인 FluenceFormer 를 제안하고, 전립선 IMRT 데이터셋에서 기존 CNN 및 단일 단계 방법보다 우수한 성능을 입증했습니다.
이 논문은 병렬 기울기 평가를 통해 적분 오차를 줄이고, 파라미터 효율적인 강화학습 기반의 정책 최적화를 통해 저지연 환경에서도 고품질 텍스트-이미지 생성을 가능하게 하는 새로운 ODE 솔버인 EPD-Solver 를 제안합니다.
이 논문은 대규모 물리 데이터셋 (PhyVidGen-135K) 구축을 위한 PhyAugPipe 파이프라인과 물리 법칙을 준수하는 비디오 생성을 위한 PhyGDPO 프레임워크를 제안하여, 기존 텍스트 - 비디오 생성 모델의 물리 일관성 문제를 해결하고 물리 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 구조화된 잠재 표현 (SLAT) 을 활용하여 학습 없이도 의미론적 일관성과 시간적 매끄러움을 갖춘 고품질의 3D 모핑을 가능하게 하는 'MorphAny3D' 프레임워크를 제안합니다.
이 논문은 대형 언어 모델 (LLM) 의 추론 능력을 PDDL 기반의 행동 트리 및 반응형 제어에 통합하여 이종 로봇 팀의 장기적 협업 작업 성공률을 기존 대비 55% 로 획기적으로 향상시킨 'EmboTeam' 프레임워크와 새로운 벤치마크 'MACE-THOR'를 제안합니다.
이 논문은 축구 하이라이트를 기반으로 중요 순간을 식별하는 새로운 데이터셋을 구축하여, 현재 멀티모달 기반 모델이 중요한 하위 이벤트를 구분하는 데 우연 수준에 머무르며 단일 모달리티에 과도하게 의존하고 있음을 규명하고, 이를 해결하기 위한 모듈식 아키텍처와 교차 모달 시너지를 극대화하는 훈련 절차의 필요성을 강조합니다.
이 논문은 스마트 글래스 등 웨어러블 기기를 위한 장기간의 자전적 비디오 이해를 위해 개체 장면 그래프와 하이브리드 검색 도구를 활용한 에이전트 프레임워크 'EGAgent'를 제안하여, 기존 방법의 한계를 극복하고 EgoLifeQA 및 Video-MME(Long) 데이터셋에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 긴 시퀀스에서의 어텐션 연산 효율성을 높이기 위해 '마이크로 어텐션 (MiTA)'이라는 새로운 메커니즘을 제안하며, 이는 랜드마크 쿼리를 통해 N 폭의 MLP 를 압축하고 각 랜드마크에 대해 최상위 k 개의 활성화된 키-값 쌍을 수집하는 '압축 및 라우팅' 전략을 기반으로 합니다.
이 논문은 기존 밀도 기반 트랜스포머 모델의 계산 과부하 문제를 해결하기 위해 물리적 상호작용과 배경 업데이트를 분리하는 '분리된 역학 예측 (DDP)' 원리를 적용한 효율적인 세계 모델 DDP-WM 을 제안하며, 이를 통해 추론 속도를 약 9 배 향상시키고 계획 성공률을 98% 로 개선함을 보여줍니다.
이 논문은 제한된 길이의 훈련 데이터와 무한한 길이의 테스트 환경 사이의 간극을 해결하기 위해 훈련 없이 적용 가능한 'Rolling Sink'를 제안하여, 5 초 길이의 데이터로 훈련된 자기회귀 비디오 확산 모델을 30 분 이상의 초장편 영상 생성에 성공적으로 확장합니다.
이 논문은 예측 불확실성과 라디올로지스트가 정의한 관심 영역 (ROI) 에 대한 주의력 정렬 오차를 결합한 이중 기준 전략을 통해, 의료 영상 분석에서 데이터 효율성과 임상적 해석 가능성을 동시에 향상시키는 설명 가능한 능동 학습 프레임워크를 제안합니다.
이 논문은 알리바바 전자상거래 플랫폼의 실시간 산업 검색을 위해 절대 ID 인식 임베딩과 비교·보정 리스트와식 리랭커를 도입하여 정밀도와 효율성을 동시에 극대화한 Pailitao-VL 시스템을 제안하고 그 우수성을 입증했습니다.
이 논문은 EEG 신호의 비정상성과 비대칭적 신경 역학을 해결하기 위해 양방향 델타 모듈과 게이트된 시간 컨볼루션을 결합한 'DeltaGateNet'을 제안하여, 다양한 데이터셋에서 기존 방법보다 우수한 운전 피로 인식 성능을 입증했습니다.
이 논문은 최신 AI 생성 영상 탐지의 한계를 극복하기 위해 사전 학습된 임베딩을 직접 모델링하는 'EA-Swin'과 대규모 벤치마크 'EA-Video'를 제안하여, 기존 최첨단 방법론보다 정확도와 일반화 성능을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 도시 전역의 분산된 카메라 네트워크에서 사생활 보호를 준수하면서도 시점, 가림, 도메인 변화에 강인한 개인 식별을 가능하게 하는 'CityGuard'라는 위상 인식 트랜스포머 기반의 프라이버시 보존 프레임워크를 제안합니다.
이 논문은 자연 이미지 백본의 한계를 극복하고 RNA 및 단백질 프로파일과 같은 분자 정보를 활용하여 적응형 영역을 자동으로 분할하는 새로운 파운데이션 모델 'CARE'를 제안하며, 기존 모델보다 적은 데이터로 다양한 병리학적 태스크에서 우수한 성능을 입증합니다.
이 논문은 오픈소스 플랫폼에서 널리 사용되는 LoRA(저랭크 적응) 모듈을 악용해 텍스트-이미지 생성 모델에 은밀한 백도어를 주입하는 'MasqLoRA'라는 새로운 공격 프레임워크를 제안하고, 이를 통해 AI 공급망에 존재하는 심각한 보안 위협을 규명합니다.
이 논문은 시각적 왜곡으로 인한 성능 저하를 해결하기 위해 인과성 기반의 이중 경로 프레임워크 'RobustVisRAG'와 새로운 벤치마크 'Distortion-VisRAG'를 제안하여, 의미와 왜곡 요소를 분리함으로써 시각적 열악한 환경에서도 견고한 검색 및 생성 성능을 달성함을 보여줍니다.