Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration
본 논문은 비주얼-언어-액션 (VLA) 모델이 언어 지시와 시각적 상황이 모순될 때 발생하는 '언어적 실명' 현상을 진단하기 위한 벤치마크 ICBench 를 제안하고, 재학습 없이 주의를 재조정하여 언어 지시의 영향을 복원하는 IGAR 방법을 통해 이 문제를 해결함을 보여줍니다.
4132 편의 논문
본 논문은 비주얼-언어-액션 (VLA) 모델이 언어 지시와 시각적 상황이 모순될 때 발생하는 '언어적 실명' 현상을 진단하기 위한 벤치마크 ICBench 를 제안하고, 재학습 없이 주의를 재조정하여 언어 지시의 영향을 복원하는 IGAR 방법을 통해 이 문제를 해결함을 보여줍니다.
이 논문은 CNN 의 구조적 효율성과 KAN 의 비선형 표현력을 결합한 'RepKAN'이라는 새로운 아키텍처를 제안하여, 원격 탐사 이미지 분류에서 블랙박스 문제를 해결하고 물리적으로 해석 가능한 추론을 제공하면서도 최신 모델보다 우수한 성능을 달성함을 보여줍니다.
이 논문은 참조 기반의 맞춤형 시각 효과 생성을 위해 고수준 의미 해석과 미세한 시각적 단서를 결합한 통합 추론 - 생성 프레임워크인 EffectMaker 와 대규모 고품질 데이터셋 EffectData 를 제안하여, 기존 방식의 한계를 극복하고 확장성 있는 VFX 제작을 가능하게 합니다.
이 논문은 기존 방법들의 한계를 극복하고 비디오 기반의 다중 객체 시스템 식별을 위해 연속적인 물성 파라미터를 최적화하는 MOSIV 프레임워크와 새로운 벤치마크를 제안하며, 이를 통해 객체 수준의 세밀한 지도와 기하학적 목표가 복잡한 다중 객체 환경에서 안정적인 최적화에 필수적임을 입증합니다.
이 논문은 여러 시점 간의 공간적 관계를 명시적으로 정렬하고 추론하는 'ViewFusion'이라는 2 단계 프레임워크를 제안하여, 기존 비전 - 언어 모델의 다중 시점 추론 성능을 크게 향상시킨다는 내용을 담고 있습니다.
이 논문은 중간 이미지 생성 없이 텍스트 기반의 구조화된 시각 표현을 활용하여 다중 모달 언어 모델의 추론 능력을 극대화하고, 다양한 텍스트 - 이미지 생성 모델과 호환되도록 설계된 새로운 프레임워크인 StruVis 를 제안하여 복잡한 프롬프트 기반 이미지 생성 성능을 크게 향상시킨다는 내용을 담고 있습니다.
이 논문은 부분 가려짐으로 인한 위치 비용 혼란을 해결하기 위해 가려짐 상태 분석, 오프셋 보정, 그리고 편향 감지 모멘텀을 결합한 'Occlusion-Aware SORT(OA-SORT)'라는 새로운 플러그인 및 학습 불필요 프레임워크를 제안하고, 다양한 데이터셋에서 기존 추적기들의 성능을 향상시키는 것을 입증합니다.
이 논문은 생물학적 시각에서 영감을 받은 고차원 하이퍼컬럼의 계산 복잡성 문제를 해결하기 위해 층화 샘플링과 앙상블 학습을 적용하여, 특히 소량의 데이터 () 환경에서 기존 UNet 기반 모델보다 뇌 종양 분할 성능을 통계적으로 유의미하게 향상시켰음을 보여줍니다.
이 논문은 구조화된 주석 파이프라인을 통해 7 만 건의 타이포그래피 데이터셋 'FontUse'를 구축하고, 이를 기반으로 기존 이미지 생성 모델을 아키텍처 변경 없이 폰트 스타일과 사용 사례 조건에 맞춰 텍스트를 일관되게 생성하도록 미세 조정하는 데이터 중심 접근법을 제안합니다.
이 논문은 통합 멀티모달 모델의 생성 능력을 향상시키기 위해 이해 모듈을 활용한 자기지도 강화학습 프레임워크인 GvU 를 제안하여, 모델이 스스로 생성물을 평가하고 개선함으로써 이해와 생성 간의 능력 격차를 해소하는 방법을 제시합니다.
이 논문은 사전 훈련된 비디오 생성 모델에 시간적 균형을 위한 헤드 슬라이딩 RoPE 와 공간적 선택성을 위한 2 단계 공간 주의 게이트를 도입하여, 자연스러운 손 - 물체 상호작용을 생성하면서도 물체의 일관성을 유지하는 경량화 증강 기법인 GenHOI 를 제안합니다.
이 논문은 자율주행 VLA 모델의 탐색 능력 저하를 해결하기 위해 실행 가능한 궤적 확장 (FTE) 전략과 적응형 다양성 인식 샘플링 (ADAS) 등을 포함한 'Curious-VLA' 프레임워크를 제안하여 Navsim 벤치마크에서 최첨단 성능을 달성했다고 요약할 수 있습니다.
이 논문은 자율주행과 관련된 비주얼-언어 모델 (VLM) 의 실패 원인을 분석하기 위해 중간 활성화 상태를 탐지하여 시각적 개념이 선형적으로 인코딩되는지 여부를 검증하고, 이를 '지각적 실패'와 '인지적 실패'로 구분하여 모델의 한계와 개선 방향을 제시합니다.
이 논문은 고도화된 교사-학생 증류 기법과 시간적 정규화를 통해 고해상도 얼굴 생성의 지연 시간과 불안정성을 해결하고 엣지 환경에서도 실시간으로 작동 가능한 효율적인 오디오 기반 대화형 얼굴 생성 프레임워크 'TempoSyncDiff'를 제안합니다.
이 논문은 왜곡 보정 및 다운샘플링, 다중 모달 정합 기술을 통해 기존에 폐기되거나 미활용되던 오모니디렉셔널 RGB-LiDAR 로그를 3D 가우스 스플래팅 (3DGS) 의 견고한 초기화 자산으로 변환하여 대규모 디지털 트윈 구축을 가능하게 하는 새로운 파이프라인을 제안합니다.
이 논문은 텍스트와 다양한 감정 변화를 반영하는 설명을 입력받아 자연스러운 표정 전환이 포함된 연속적인 감정 표현을 생성하는 새로운 작업인 '감정 연속성 말하기 얼굴 생성 (EC-TFG)'과 이를 구현하는 'TIE-TFG' 모델을 제안합니다.
이 논문은 대규모 언어 모델의 환각 현상을 동역학 시스템의 안정성 이론 관점에서 재해석하고, 입력 변화에 따른 신뢰도 감소를 강제하는 '리아푸노프 프로브 (Lyapunov Probes)'를 제안하여 기존 방법보다 정확한 환각 탐지를 가능하게 함을 보여줍니다.
이 논문은 RGB 이미지와 텍스트 정렬에 의존하는 기존 방식의 한계를 극복하고, 깊이 정보의 고유한 특성을 활용하여 3 차원 장면 이해를 강화하기 위해 깊이 지도와 언어를 연결하는 최초의 전용 멀티모달 모델인 'DeepSight'를 제안하고 있습니다.
이 논문은 감시 및 화상통화 등 정적 장면 비디오의 효율적인 압축을 위해 단기적 변화를 '긍정적 인센티브 노이즈'로 재해석하여 모델 미세조정을 수행함으로써, 기존 신경망 비디오 압축 방식 대비 73% 의 비트율 절감 효과를 달성하면서도 픽셀 수준의 충실도를 유지하는 새로운 방법을 제안합니다.
본 논문은 개인 재식별 (Person Re-identification) 과제에서 데이터 프라이버시를 보호하면서도 기존 방법의 한계를 극복하기 위해, 국소적 세부 정보 포착과 고품질 클라이언트의 기여를 극대화하는 'FedARKS'라는 새로운 연동 학습 프레임워크를 제안합니다.