iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models
이 논문은 이미지 인코더와 LLM 을 공동으로 최적화하여 불필요한 시각 토큰을 줄이고 폐기된 정보를 재활용하는 새로운 토큰 병합 전략인 iLLaVA 를 제안함으로써, 기존 방법론의 한계를 극복하고 처리량과 효율성을 획기적으로 향상시켰음을 보여줍니다.
2375 편의 논문
이 논문은 이미지 인코더와 LLM 을 공동으로 최적화하여 불필요한 시각 토큰을 줄이고 폐기된 정보를 재활용하는 새로운 토큰 병합 전략인 iLLaVA 를 제안함으로써, 기존 방법론의 한계를 극복하고 처리량과 효율성을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 다양한 멀티모달 작업에 적용 가능한 참조 없는 포괄적 평가 지표인 HarmonicEval 과 이를 검증하기 위한 18,000 개의 인간 평가 데이터로 구성된 MMHE 벤치마크를 제안하여, 기존 지표보다 인간 판단과의 상관관계가 높고 세부 기준별 점수를 제공하는 것을 입증합니다.
이 논문은 기하학적 지도와 대비 손실, 그리고 계층적 문맥 인식 모듈을 통해 3D 객체 표면에 언어 정보를 정밀하게 정렬함으로써 기존 방법보다 우수한 2D/3D 분할, 제거 및 편집 성능을 달성하는 'LangSurf'를 제안합니다.
이 논문은 사전 학습된 비전 - 언어 모델 (VLM) 을 활용하여 시각적 술어 (predicates) 를 추출하고 최적화 기반 학습을 통해 추상적 심볼릭 세계 모델을 구축함으로써, 제한된 짧은 시퀀스 데모만으로도 다양한 물체, 배경, 그리고 훈련 시 보지 못한 긴 시간 범위의 새로운 목표에 대해 제로샷 일반화가 가능한 로봇 의사결정 시스템을 제안합니다.
이 논문은 잠재 공간 클러스터링을 기반으로 결정 경계 근처의 핵심 데이터 샘플을 선별하거나 생성하여, 반지도 적대적 학습 (SSAT) 의 데이터 요구량과 계산 비용을 획기적으로 줄이면서도 강력한 적대적 견고성을 유지하는 효율적인 방법을 제안합니다.
이 논문은 베이지안 규칙에 기반하여 무조건부 사전 훈련된 확산 모델과 가우시안 사전 분포를 활용한 MAP 기반 유도 항 추정 기법을 제안함으로써, 초해상도 및 이미지 복원 등 다양한 역문제에서 기존 최첨단 방법보다 더 우수한 구조 보존과 일관성을 달성하는 문제-무관형 확산 모델을 개발했습니다.
이 논문은 전문가 시연과 무작위 탐색을 기반으로 한 예측 세계 모델을 활용하여 생성형 확산 정책을 온라인으로 계획 및 최적화하는 '생성형 예측 제어 (GPC)' 프레임워크를 제안하며, 다양한 로봇 조작 작업에서 시뮬레이션과 실제 환경 모두에서 기존 행동 모방 (Behavior Cloning) 보다 뛰어난 성능을 입증합니다.
이 논문은 복잡한 추상적 지시에 따른 대규모 미지 환경 내비게이션의 한계를 극복하기 위해 신경망 추론과 심볼릭 가이드를 결합한 신경-심볼릭 접근법 VL-Nav 을 제안하며, 실내·실외 및 실제 3D 환경에서 높은 성공률로 검증된 바 있습니다.
이 논문은 저해상도 이미지 쌍을 활용한 자기지도 학습과 잠재 확산 기반의 구조적 표현 프롬프트 생성, 그리고 구조적 어텐션 모듈을 결합하여 상세한 구조 정보를 보존하면서 단일 이미지 노이즈 제거 성능을 극대화하는 'Prompt-SID' 프레임워크를 제안합니다.
이 논문은 대규모 언어 모델 (LLM) 을 활용하여 뇌의 시각 피질 뉴런이 특정 이미지에 반응하는 이유를 자연어 캡션으로 생성하고 해석하는 'LaVCa'라는 새로운 접근법을 제안하며, 기존 방법보다 더 정교하고 상세한 뇌 표현의 특성을 규명했다고 요약할 수 있습니다.
이 논문은 BraTS 데이터셋의 다중 MRI 시퀀스를 기반으로 UNet 을 활용한 2D 및 3D 분할 결과를 가중 평균으로 융합하고 사전 학습된 ResNet50 모델에 입력하여 뇌종양 아형 분류 정확도를 99.25% 로 극대화하는 새로운 기법을 제안합니다.
이 논문은 텍스트-이미지 확산 모델의 미세 조정을 위해 REINFORCE 의 분산 감소 기법과 PPO 의 견고함을 결합하여 샘플 효율성과 최종 성능 간의 균형을 개선한 새로운 강화 학습 방법인 'LOOP(Leave-One-Out PPO)'를 제안합니다.
이 논문은 사전 학습된 가우시안 프로세스 모델로 생성된 해부학적 랜드마크를 통합한 새로운 토큰화 방식과 트랜스포머 기반의 기하학적 딥러닝 모델을 제안하여, 고비용 침습적 PET 스캔 없이도 알츠하이머병 진단 및 중위험군의 뇌 아밀로이드 양성 예측 정확도를 향상시켰습니다.
이 논문은 기존 아바타 시스템의 한계를 극복하고, 가우시안 도메인 적응 (GDA) 기술을 통해 사용자의 셀카를 기반으로 신원 정보를 유지하면서 2 차 스타일을 적용하는 '듀얼 스타일라이제이션' 방식을 통해 모바일 기기에서 실시간으로 애니메이션이 가능한 3D 아바타를 즉시 생성하는 'Snapmoji' 시스템을 제안합니다.
이 논문은 텍스트 기반 3D 실내 장면 생성의 평가 한계를 극복하기 위해 명시적 요구사항과 암묵적 기대치를 모두 측정하는 'SceneEval' 프레임워크와 500 개 텍스트 설명으로 구성된 벤치마크 'SceneEval-500'을 제안하고, 이를 통해 기존 생성 방법들의 성능을 다각도로 평가하여 개선 방향을 제시합니다.
이 논문은 기존 모델의 임베딩과 강력하게 정렬하는 제약이 새로운 모델의 판별력을 저하시킨다는 문제를 해결하기 위해, 오래된 특징 프로토타입에 노이즈를 추가하여 정렬 제약을 완화하는 '프로토타입 교란' 기법을 제안함으로써 역호환성 학습의 성능을 향상시켰습니다.
이 논문은 비동기적인 2D 구조 정렬과 물리적 충돌이 없는 3D 확산 모델을 통합하여, 단일 이미지에서의 양손 재구성 시 발생하는 복잡한 오목과 관통 문제를 해결하고 정밀한 상호작용 복원을 가능하게 하는 새로운 접근법을 제안합니다.
이 논문은 기존 방법의 한계를 극복하고 장면 내 객체의 불완전한 스캔을 정밀하게 복원하기 위해 장면 제약 조건을 통합한 새로운 포인트 클라우드 기반 인스턴스 완성 모델과 이를 평가하기 위한 새로운 데이터셋 ScanWCF 를 제안합니다.
이 논문은 EEG 기반 감정 인식의 안정성과 정확도를 향상시키기 위해 Lipschitz 연속성 제약을 적용한 앙상블 학습 프레임워크인 LEL 을 제안하고, 여러 공개 데이터셋에서 기존 방법보다 우수한 성능을 입증했습니다.
이 논문은 GPS 가 제한된 도시 환경에서 모바일 플랫폼의 자원 제약을 극복하기 위해, 다중 카메라 시스템이 비유용한 특징을 제거하고 중복성을 최소화하는 O-VIB 인코더를 통해 경량화된 시각적 특징을 에지 서버로 전송하여 정밀한 로컬라이제이션을 수행하는 작업 지향적 의미 압축 프레임워크를 제안합니다.