Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
이 논문은 기계적 해석 기법을 활용하여 비디오-대규모 언어 모델 (VideoLLM) 이 시공간적 정보를 처리하고 답변을 생성하는 내부 정보 흐름과 시간적 추론의 핵심 경로를 규명하고, 불필요한 주의를 억제하여 성능을 유지하는 방식을 제시합니다.
5561 편의 논문
이 논문은 기계적 해석 기법을 활용하여 비디오-대규모 언어 모델 (VideoLLM) 이 시공간적 정보를 처리하고 답변을 생성하는 내부 정보 흐름과 시간적 추론의 핵심 경로를 규명하고, 불필요한 주의를 억제하여 성능을 유지하는 방식을 제시합니다.
이 논문은 텍스트 쿼리에 의존하는 자기 증강 프롬핑 전략과 엔트로피 인식 적응적 임계값 알고리즘을 도입하여 기존 시각적 대비 디코딩 방법의 한계를 극복하고 대형 비전 - 언어 모델의 환각 현상을 줄이고 사실적 일관성을 향상시키는 훈련 없는 디코딩 전략 'Self-Aug'을 제안합니다.
이 논문은 마르스 지형의 결손 영역을 복원하기 위해 기존 보간법보다 정확도와 지각적 유사성이 뛰어난 무조건부 확산 모델을 제안하고, NASA HiRISE 데이터를 기반으로 한 실험을 통해 그 우수성을 입증했습니다.
이 논문은 CLAHE 와 개선된 Ben Graham 기법을 결합한 전처리, DenseNet121 인코더와 Self-ONN 디코더를 활용한 UNet 기반의 세그멘테이션, 그리고 컨투어 정제 모듈로 구성된 3 단계 파이프라인인 CASR-Net 을 제안하여 X-ray 관상동맥 조영술에서 혈관 연속성을 보존하고 정밀도를 크게 향상시킨 것을 보여줍니다.
이 논문은 임의의 RGB 이미지나 텍스트 설명으로부터 고차원 자유도 (High-DoF) 의 관절형 물체를 자동으로 합성하여, 기존 방법의 확장성 한계를 극복하고 물리적으로 일관된 운동학적 구조를 생성하는 'Kinematify' 프레임워크를 제안합니다.
이 논문은 객체 검출의 구조적 복잡성과 도메인 격차를 극복하기 위해, 각 이미지가 데이터셋 평균 정밀도 (AP) 에 미치는 한계 기여도를 추정하여 학습 중 가장 유익한 샘플을 동적으로 선별하는 온라인 데이터 큐레이션 방법인 DetGain 을 제안하고 COCO 데이터셋에서 정확도 향상과 낮은 품질 데이터에 대한 강건성을 입증합니다.
이 논문은 비디오-오디오 생성 모델의 객체 간섭 문제를 해결하고 인간 선호도를 정렬하기 위해, 네 가지 지각 차원을 위한 분해된 사고 연쇄 (CoT) 모듈과 다차원 보상, 그리고 효율적인 Fast-GRPO 알고리즘을 통합한 PrismAudio 프레임워크를 제안하고 AudioCanvas 벤치마크에서 최첨단 성능을 입증합니다.
이 논문은 이전 모든 스케일의 의존성을 제거하면서도 히스토리 벡터를 활용한 마르코프 상태 예측을 통해 계산 효율성을 극대화하고 생성 품질을 향상시킨 새로운 시각적 자기회귀 모델인 Markov-VAR 을 제안합니다.
이 논문은 복잡한 환경에서 불확실성 정량화 (UQ) 와 추론 체인, 자기 성찰, MLLM 앙상블 등의 품질 보증 기법을 통합하여 신뢰할 수 있는 이상 탐지 성능을 달성한 새로운 프레임워크 'ALARM'을 제안하고, 스마트 홈 및 상처 이미지 데이터셋을 통한 실험으로 그 유효성을 입증합니다.
이 논문은 기존 방법의 오류 전파 문제를 해결하고 인간 편집자의 작업 방식과 유사한 점진적 자기 수정 메커니즘을 통해 영화 예고편 생성 성능을 획기적으로 향상시킨 'SSMP'라는 새로운 자기 조절 및 자기 수정 마스킹 예측 모델을 제안합니다.
이 논문은 최적 제어 이론을 활용하여 사전 훈련된 플로우 매칭 모델을 인간 선호도에 맞춰 효율적으로 미세 조정하면서도 사전 분포를 보존하는 새로운 방법인 VGG-Flow 를 제안합니다.
이 논문은 사용자가 제공한 대략적인 마스크를 정밀한 인스턴스 수준으로 개선하는 그레들리티 인식 마스크 리파이너와 고품질 오디오 안내를 위한 자기 피드백 오디오 에이전트를 도입하여, 오디오와 비디오의 동기화를 유지하면서 정밀한 인스턴스 편집을 가능하게 하는 AVI-Edit 프레임워크를 제안합니다.
이 논문은 75 가지 다양한 생물학적 연구에서 수집된 이질적인 다채널 현미경 이미지 데이터셋인 CHAMMI-75 을 공개하여, 채널 구성에 구애받지 않고 다양한 현미경 이미지에 적응 가능한 세포 형태 분석 모델의 성능을 향상시키는 방법을 제시합니다.
이 논문은 자율주행의 인지, 계획, 생성을 단일 아키텍처로 통합한 'UniDrive-WM'을 제안하여 미래 장면 예측을 통해 계획 성능을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 한자를 토큰 ID 대신 8x8 픽셀의 저해상도 회색조 이미지로 입력받아 언어 모델을 학습시키는 방식을 제안하며, 기존 인덱스 기반 방법과 유사한 정확도를 달성하면서도 초기 학습 단계에서 훨씬 빠른 성능 향상을 보인다는 결과를 제시합니다.
이 논문은 국소 - 전역 어텐션 메커니즘과 이미지 분해 기술을 결합한 새로운 비지도 변형 이미지 등록 프레임워크인 LGANet++ 을 제안하여, 다양한 임상 시나리오에서 기존 최첨단 방법들보다 우수한 정확도와 강건성을 입증했습니다.
이 논문은 이미지 내 시각적 관계를 그래프로 인식하는 과제를 해결하기 위해, 다양한 그래프 유형과 작업 간 전이가 가능한 통합 프레임워크인 'GraSP(Graph Recognition via Subgraph Prediction)'를 제안합니다.
MLV-Edit 는 분 단위 장편 비디오 편집의 계산 비용과 시간적 일관성 문제를 해결하기 위해 세그먼트 간 흐름 정렬과 전역 참조 프레임 기반 어텐션 메커니즘을 활용한 훈련 없는 프레임워크를 제안합니다.
이 논문은 긴 비디오 이해에서 기존 균일 샘플링의 한계를 극복하고, 국소화 및 답변을 통합적으로 모델링하는 새로운 에이전트 사고 프레임워크인 'VideoTemp-o3'를 제안하여, 정밀한 시간적 국소화와 고품질 데이터 구축을 통해 성능을 획기적으로 향상시킨다고 요약할 수 있습니다.
이 논문은 수동적인 이미지 라벨링 없이 방사선 보고서와 뼈별 국소화를 결합한 WristMIR 프레임워크를 통해 소아 손목 골절 패턴을 정밀하게 검색하고 진단 정확도를 향상시키는 방법을 제시합니다.