OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks
이 논문은 원격 탐사 비전 - 언어 모델 (RSVLM) 의 성능을 종합적으로 평가하기 위해 지리 공간적 맥락, 다양한 데이터 소스, 그리고 언어적 편향을 줄이기 위한 엄격한 프로토콜을 포함한 새로운 벤치마크 'OmniEarth'를 제안하고 기존 모델들의 한계를 분석합니다.
3447 편의 논문
이 논문은 원격 탐사 비전 - 언어 모델 (RSVLM) 의 성능을 종합적으로 평가하기 위해 지리 공간적 맥락, 다양한 데이터 소스, 그리고 언어적 편향을 줄이기 위한 엄격한 프로토콜을 포함한 새로운 벤치마크 'OmniEarth'를 제안하고 기존 모델들의 한계를 분석합니다.
이 논문은 강화 학습을 통해 단계별 추론 능력을 향상시킨 새로운 모델 MORE-R1 을 제안하여, 기존 방법들의 한계를 극복하고 멀티모달 객체 - 개체 관계 추출 (MORE) 작업에서 최첨단 성능을 달성했다고 요약할 수 있습니다.
이 논문은 기존 비전 - 언어 모델의 계산 비효율성을 해결하기 위해 훈련 없이 실행 가능한 'PruneSID'를 제안하며, 의미적 중요도와 다양성을 시너지적으로 고려한 두 단계 토큰 압축 기법을 통해 극단적인 토큰 감소율에서도 최첨단 성능과 빠른 처리 속도를 달성함을 보여줍니다.
이 논문은 기존 VLA 모델의 한계를 극복하고 다양한 운전 스타일과 물리적 타당성을 동시에 고려한 'StyleVLA'라는 새로운 프레임워크를 제안하며, 이를 통해 폐쇄형 모델보다 우수한 자율주행 성능을 입증했습니다.
본 논문은 자유로운 손으로 그린 스케치를 사실적인 이미지로 변환하는 과제를 해결하기 위해, 구성 요소별 특징을 포착하는 자기주의 인코딩과 좌표 보존 융합 모듈을 활용한 2 단계 프레임워크를 제안하여 기존 GAN 및 확산 모델보다 뛰어난 이미지 충실도와 의미론적 정확도를 달성함을 보여줍니다.
이 논문은 기존 비디오 생성 모델의 실시간 스트리밍 한계를 극복하기 위해 시간적 맥락을 효과적으로 활용하고 비대칭적 생성 전략을 도입한 '대각선 증류 (Diagonal Distillation)' 기법을 제안하여, 5 초 분량의 비디오를 2.61 초 (초당 31 프레임) 내에 생성하며 기존 모델 대비 277.3 배의 속도 향상을 달성했다고 요약할 수 있습니다.
이 논문은 소프트웨어 공학에서 규제 준수를 설계 단계에 통합하기 위해 다양한 관점과 산출물을 중심으로 한 '규제 요구사항 공학을 위한 산출물 모델 (AM4RRE)'을 제안하고, 이를 통해 체계적인 규제 요구사항 공학 프로세스 구축을 위한 향후 연구 방향에 대한 피드백을 구하고 있습니다.
이 논문은 조직 및 작업 다양성으로 인한 한계를 극복하기 위해 언어 기반 채널 선택과 언어 기반 하이퍼 집계 메커니즘을 도입하여 로봇 보조 최소 침습 수술 비디오 이해를 위한 다작업 연합 학습 프레임워크인 SurgFed 를 제안하고, 다양한 공개 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.
이 논문은 프로젝트 특화 아티팩트를 기반으로 한 RAG 파이프라인을 활용해 임베디드 C 소프트웨어 테스트의 자동화를 달성함으로써 수동 작성 대비 최대 66% 의 시간을 단축하고 시간당 270 개의 테스트를 생성할 수 있음을 보여줍니다.
이 논문은 TalisMan2.0 도구를 통해 다양한 소수 모듈로 병렬 계산을 수행하는 하이브리드 대수적 기법을 제안함으로써, 큰 정수 연산을 피하면서도 산술 회로의 검증 효율성을 기존 방법보다 크게 향상시켰음을 보여줍니다.
이 논문은 긴 문맥적 설명을 전역 탐색 우선순위로 활용하고 3D 공간 추론을 통해 관점 의존적 검증을 수행함으로써, 별도의 학습 없이 복잡한 3D 환경에서 텍스트 기반 인스턴스 탐색의 최신 성능을 달성한 'Context-Nav'를 제안합니다.
이 논문은 자율주행용 비전 - 언어 모델 (VLM) 이 응답의 불일치와 시간적 추론 부족이라는 한계를 겪고 있음을 지적하고, 이를 해결하기 위해 미래 장면 추론을 평가하는 'FutureVQA' 벤치마크와 시간 레이블 없이도 일관성과 추론 능력을 향상시키는 자기지도 학습 기법을 제안합니다.
이 논문은 복잡한 비마르코프적 장기 작업 수행을 위해 LLM 기반의 'RuleSafe' 시뮬레이션 벤치마크를 제안하고, 과거 상태의 이산적 잠재 토큰을 인코딩하여 장기 계획과 일반화 능력을 향상시키는 'VQ-Memory' 모델을 개발했습니다.
이 논문은 자율주행 시스템의 안전성을 위협하는 센서 열화 및 적대적 공격에 대응하기 위해, 기존 비전-비행 (BEV) 감지 모델에 플러그 앤 플레이 방식으로 적용 가능한 잠재적 세계 모델을 통해 손상된 관측 데이터를 복원하는 강인한 방법론인 RESBev 를 제안합니다.
이 논문은 장기적 의존성과 미세한 경계 세부 사항을 모두 효과적으로 모델링하기 위해 차별화된 교차 어텐션 (DCA) 과 채널 - 공간 특징 융합 (CSFF) 전략을 도입하여 계산 복잡성을 줄이고 분별력 있는 구조를 강조하는 새로운 의료 영상 분할 프레임워크인 DCAU-Net 을 제안합니다.
이 논문은 대규모 언어 모델 (LLM) 을 활용하여 교육 콘텐츠의 의미적 맥락에 맞춰 말과 제스처를 동적으로 생성하는 교수 에이전트 방식을 제안하고, 가상현실 환경에서의 사용자 경험 평가를 통해 학습 효과, 몰입도, 사회적 존재감 향상 및 피로감 감소에 유의미한 효과가 있음을 입증했습니다.
이 논문은 대규모 교차 멀티모달 데이터셋 없이도 기존 통합 모델을 강화학습 기반의 그룹 상대적 정책 최적화 (GRPO) 를 통해 시각적 스토리텔링 및 단계별 추론과 같은 멀티모달 교차 생성 능력을 갖춘 모델로 진화시키는 새로운 후속 훈련 전략을 제안합니다.
이 논문은 동적 인간 환경에서의 embodied question answering (EQA) 과제를 위해 인간 활동과 시간적 변화를 포함한 'DynHiL-EQA' 데이터셋을 제안하고, 모호한 관측을 검증하고 정보성 있는 증거만 선택적으로 기억에 저장하는 훈련 없는 'DIVRR' 프레임워크를 통해 occlusion 상황에서의 강건성과 추론 효율성을 동시에 향상시켰습니다.
이 논문은 온라인 강화학습을 통해 심볼릭 인코더와 솔버를 도입하여 데이터 효율성, 제로샷 일반화 능력, 그리고 탐색 범위를 동시에 개선한 새로운 신경-심볼릭 비전 - 언어 - 행동 (NS-VLA) 프레임워크를 제안하고 로봇 조작 벤치마크에서 기존 방법보다 우수한 성능을 입증합니다.
이 논문은 기존 자동 프로그램 복구 기법과 범용 LLM 의 한계를 극복하기 위해, 컴파트먼트 간 인터페이스 취약점을 자동으로 식별하고 수정하는 전용 프레임워크를 설계하고 초기 결과를 제시합니다.