RiO-DETR: DETR for Real-time Oriented Object Detection
이 논문은 방향성 객체 탐지 (OBB) 의 고유한 도전 과제를 해결하면서도 실시간 효율성을 유지하는 최초의 실시간 방향성 탐지 트랜스포머인 RiO-DETR 을 제안하고, DOTA-1.0, DIOR-R, FAIR-1M-2.0 등 다양한 데이터셋에서 속도 - 정확도 균형을 크게 개선했음을 입증합니다.
2630 편의 논문
이 논문은 방향성 객체 탐지 (OBB) 의 고유한 도전 과제를 해결하면서도 실시간 효율성을 유지하는 최초의 실시간 방향성 탐지 트랜스포머인 RiO-DETR 을 제안하고, DOTA-1.0, DIOR-R, FAIR-1M-2.0 등 다양한 데이터셋에서 속도 - 정확도 균형을 크게 개선했음을 입증합니다.
이 논문은 다양한 도메인의 문서 레이아웃 분석 (DLA) 에서 발생하는 구조적 차이를 극복하고 일반화 성능을 향상시키기 위해, 도메인 특성에 맞춰 생성된 설명적 지식을 단서로 활용하는 'PromptDLA'라는 새로운 프레임워크를 제안하고 있습니다.
이 논문은 시각적 맥락의 허위 상관관계로 인한 비합리적인 예측 문제를 해결하기 위해 인과적 개입 모듈과 계층적 그래프 신경망을 결합한 CIGPose 프레임워크를 제안하여 COCO-WholeBody 데이터셋에서 새로운 최고 성능을 달성했습니다.
이 논문은 메타 학습을 통한 사전 훈련과 테스트 시 데이터에 적응적으로 학습률 및 업데이트 빈도를 조정하는 메커니즘을 도입하여, 분포 변화 하에서도 강건하고 정확한 궤적 예측을 가능하게 하는 MetaDAT 방법을 제안합니다.
이 논문은 불완전한 인식과 진화하는 객체 분류를 가진 실제 환경에서 자동주행 차량을 위해 새로운 객체 클래스가 순차적으로 도입되는 '오픈 월드 모션 예측' 설정을 제안하고, 가짜 라벨링과 비전 - 언어 모델, 그리고 쿼리 특징 분산을 활용한 재샘플링 전략을 통해 기존 클래스의 망각을 방지하면서 새로운 클래스에 적응하는 최초의 엔드 - 투 - 엔드 클래스 증분 모션 예측 프레임워크를 제시합니다.
이 논문은 다양한 의료 영상 모드에서 단일 뷰 내의 이상 징후 간 관계와 뷰 간 역동적 변화를 동시에 모델링하고 결측 데이터를 처리하여 진단 정확도와 견고성을 향상시키는 새로운 그래프 기반 학습 프레임워크인 GIIM 을 제안합니다.
이 논문은 임상 가이드라인을 텍스트로 변환하여 재학습 없이 3 차원 표적 부위를 자동 윤곽화하는 새로운 AI 에이전트 'OncoAgent'를 제안하며, 위암 사례에서 전감시 학습 기반 모델과 유사한 성능과 더 높은 임상적 선호도를 입증했습니다.
이 논문은 자율주행 비전 - 언어 - 행동 모델의 지각 저하 및 장기 계획 불안정성 문제를 해결하기 위해, 자기 앵커 기반의 시각적 증류와 오라클 가이드 궤적 최적화를 결합한 협업 증류 프레임워크인 EvoDriveVLA 를 제안하여 오픈루프 및 클로즈드루프 평가에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 기존 이항 관계의 한계를 극복하고 수술실의 고차원적 토폴로지 구조를 보존하여 다중 모달 데이터의 정밀한 구조를 유지하면서도 안전-중요 추론 성능을 향상시키는 새로운 통합 토폴로지 장면 표현 'TopoOR'을 제안합니다.
이 논문은 19 세기 고대 그리스어 판본의 복잡한 레이아웃과 열화된 문자를 인식하기 위해 전용 OCR 파이프라인을 구축하여 100 만 개 이상의 토큰으로 구성된 대규모 오픈 코퍼스 'Patrologia Graeca Corpus'를 공개하고, 이를 통해 다성조 그리스어 OCR 의 새로운 벤치마크를 제시했다고 요약할 수 있습니다.
이 논문은 원격 탐사 비전 - 언어 모델 (RSVLM) 의 성능을 종합적으로 평가하기 위해 지리 공간적 맥락, 다양한 데이터 소스, 그리고 언어적 편향을 줄이기 위한 엄격한 프로토콜을 포함한 새로운 벤치마크 'OmniEarth'를 제안하고 기존 모델들의 한계를 분석합니다.
이 논문은 기존 비전 - 언어 모델의 계산 비효율성을 해결하기 위해 훈련 없이 실행 가능한 'PruneSID'를 제안하며, 의미적 중요도와 다양성을 시너지적으로 고려한 두 단계 토큰 압축 기법을 통해 극단적인 토큰 감소율에서도 최첨단 성능과 빠른 처리 속도를 달성함을 보여줍니다.
본 논문은 자유로운 손으로 그린 스케치를 사실적인 이미지로 변환하는 과제를 해결하기 위해, 구성 요소별 특징을 포착하는 자기주의 인코딩과 좌표 보존 융합 모듈을 활용한 2 단계 프레임워크를 제안하여 기존 GAN 및 확산 모델보다 뛰어난 이미지 충실도와 의미론적 정확도를 달성함을 보여줍니다.
이 논문은 기존 비디오 생성 모델의 실시간 스트리밍 한계를 극복하기 위해 시간적 맥락을 효과적으로 활용하고 비대칭적 생성 전략을 도입한 '대각선 증류 (Diagonal Distillation)' 기법을 제안하여, 5 초 분량의 비디오를 2.61 초 (초당 31 프레임) 내에 생성하며 기존 모델 대비 277.3 배의 속도 향상을 달성했다고 요약할 수 있습니다.
이 논문은 사전 학습된 비전 - 언어 모델의 지식을 유지하면서 소량의 데이터로 안정적으로 적응할 수 있도록 프롬프트의 진화 경로를 제어하는 새로운 프레임워크인 EvoPrompt 를 제안합니다.
이 논문은 조직 및 작업 다양성으로 인한 한계를 극복하기 위해 언어 기반 채널 선택과 언어 기반 하이퍼 집계 메커니즘을 도입하여 로봇 보조 최소 침습 수술 비디오 이해를 위한 다작업 연합 학습 프레임워크인 SurgFed 를 제안하고, 다양한 공개 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.
이 논문은 긴 문맥적 설명을 전역 탐색 우선순위로 활용하고 3D 공간 추론을 통해 관점 의존적 검증을 수행함으로써, 별도의 학습 없이 복잡한 3D 환경에서 텍스트 기반 인스턴스 탐색의 최신 성능을 달성한 'Context-Nav'를 제안합니다.
이 논문은 자율주행용 비전 - 언어 모델 (VLM) 이 응답의 불일치와 시간적 추론 부족이라는 한계를 겪고 있음을 지적하고, 이를 해결하기 위해 미래 장면 추론을 평가하는 'FutureVQA' 벤치마크와 시간 레이블 없이도 일관성과 추론 능력을 향상시키는 자기지도 학습 기법을 제안합니다.
이 논문은 자율주행 시스템의 안전성을 위협하는 센서 열화 및 적대적 공격에 대응하기 위해, 기존 비전-비행 (BEV) 감지 모델에 플러그 앤 플레이 방식으로 적용 가능한 잠재적 세계 모델을 통해 손상된 관측 데이터를 복원하는 강인한 방법론인 RESBev 를 제안합니다.
이 논문은 장기적 의존성과 미세한 경계 세부 사항을 모두 효과적으로 모델링하기 위해 차별화된 교차 어텐션 (DCA) 과 채널 - 공간 특징 융합 (CSFF) 전략을 도입하여 계산 복잡성을 줄이고 분별력 있는 구조를 강조하는 새로운 의료 영상 분할 프레임워크인 DCAU-Net 을 제안합니다.