Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection
이 논문은 기존 대형 멀티모달 모델의 한계를 극복하고 적대적 공격에 대한 강건성과 도메인 간 일반화 능력을 향상시키며, hateful meme 탐지 성능과 해석 가능성을 동시에 개선하는 새로운 적응 프레임워크를 제안합니다.
5768 편의 논문
이 논문은 기존 대형 멀티모달 모델의 한계를 극복하고 적대적 공격에 대한 강건성과 도메인 간 일반화 능력을 향상시키며, hateful meme 탐지 성능과 해석 가능성을 동시에 개선하는 새로운 적응 프레임워크를 제안합니다.
이 논문은 비전 트랜스포머 (ViT) 의 효율성을 유지하면서 정확도를 높이기 위해 패치 토큰의 너비를 줄이고, 모든 레이어에서 파라미터를 공유하는 단일의 넓은 'Jumbo' 토큰을 도입하여 계산 비용을 절감하고 다양한 작업에서 성능을 개선하는 방법을 제안합니다.
이 논문은 아랍어와 영어의 선동성 및 혐오성 밈 탐지 및 설명 생성 성능을 획기적으로 개선하기 위해 대규모 설명 강화 데이터셋 'MemeXplain'을 구축하고, 비전 - 언어 모델을 활용한 다단계 최적화 전략을 제안합니다.
이 논문은 실외 항공 시야에서의 시각 - 언어 항법 (VLN) 을 위한 대규모 벤치마크, 자동화 데이터 수집 도구체인, 그리고 3D 가우시안 스플래팅을 활용한 고품질 시뮬레이션 환경을 포함한 포괄적인 플랫폼 'OpenFly'와 이를 기반으로 한 에이전트를 제안합니다.
이 논문은 기존 모델이 직면한 긍정 및 부정 쌍의 유사도 분포 중첩 문제를 해결하기 위해 난이도 가중 대비 학습을 도입한 LLaVE 프레임워크를 제안하고, 이를 통해 7B 모델 대비 2B 모델로도 최첨단 성능을 달성하며 텍스트 - 비디오 검색 등 다양한 작업으로의 제로샷 일반화 능력을 입증했습니다.
이 논문은 기존 MLLM 과 DeepSeek-R1 을 활용해 인간 주석 없이 고품질 다중 모달 CoT 데이터를 구축하고, 점진적 사고 억제 훈련 (PTST) 과 GRPO 를 적용하여 다중 모달 추론 능력을 강화한 'Vision-R1'모델을 제안하며, 이를 통해 MathVista 벤치마크에서 OpenAI O1 과 유사한 성능을 달성했음을 보여줍니다.
이 논문은 의미 기반 계층적 코드북을 통해 고수준 의미 이해와 저수준 픽셀 생성 간의 균형을 달성한 통합 이미지 토크나이저 'SemHiTok'을 제안하며, 이를 통해 이미지 재구성 및 다중 모달 이해·생성 성능을 동시에 향상시켰음을 보여줍니다.
이 논문은 마스킹된 이미지 생성 모델과 마스킹된 확산 모델을 통합한 프레임워크를 제안하여, 적은 계산 비용으로 ImageNet 생성 작업에서 기존 최첨단 모델들을 능가하는 성능을 보이는 새로운 모델 'eMIGM'을 개발했습니다.
이 논문은 저작권 침해 및 프라이버시 문제 해결을 위해 확산 모델에서 개념을 효율적으로 제거하면서도 비대상 개념의 생성 품질을 유지하기 위해 영공간을 탐색하고 세 가지 보완 전략을 도입한 'SPEED'라는 새로운 개념 제거 방법을 제안합니다.
이 논문은 의료 영상 분야를 중심으로 기계학습 시스템의 유용성과 공정성 간의 복잡한 트레이드오프를 체계적으로 분석하고 비교할 수 있는 모델 독립적 다목적 평가 프레임워크 'Fairical'을 제안합니다.
이 논문은 입력 이미지의 특정 객체 (타겟) 와 텍스트 프롬프트로 정의된 동작을 기반으로 인간과 객체의 상호작용을 정확하게 생성하는 '타겟 인식 비디오 확산 모델'을 제안하며, 이를 통해 3D 상호작용 모션 합성 및 장기 비디오 콘텐츠 제작 등 다양한 응용 분야에서의 성능을 입증했습니다.
이 논문은 여러 작업 간 간섭을 줄이고 모델 병합 성능을 극대화하기 위해 엔트로피 최소화를 통해 테스트 시간에 작업 벡터의 특이 성분을 적응적으로 가지치기하는 새로운 프레임워크인 AdaRank 를 제안합니다.
이 논문은 다중 모달 대형 언어 모델 (MLLM) 이 추론한 시맨틱 지식을 수학적 기호로 정의된 '분석적 개념 (analytic concepts)'을 통해 물리적으로 구체화하여, 로봇이 다양한 관절형 객체를 일반화되고 정확하게 조작할 수 있도록 하는 새로운 프레임워크를 제안합니다.
이 논문은 SAR 와 광학 이미지 간의 큰 비선형 방사계 차이 문제를 해결하기 위해, 역변환 목적 함수를 도입하여 단일 단계로 이미지 변환을 수행하는 UTGOS-CDM 모델과 다중 스케일 정합 네트워크 (MM-Reg) 를 결합한 OSDM-MReg 프레임워크를 제안하여 기존 방법보다 뛰어난 정합 정확도를 달성함을 보여줍니다.
이 논문은 불균형 데이터를 해결하기 위해 다섯 개의 공개 데이터셋을 통합하고 SMOTE 및 CLAHE 전처리를 적용한 후, VGG19 와 ResNet50V2 의 장점을 결합한 하이브리드 딥러닝 모델 'VR-FuseNet'을 제안하여 당뇨병성 망막병증 분류 정확도를 91.824% 로 높이고 XAI 기법을 통해 임상적 해석 가능성을 확보한 연구입니다.
이 논문은 생태학 및 생물학 분야에서 컴퓨터 비전 모델의 성능을 단순한 머신러닝 지수가 아닌 실제 응용 목적에 부합하는 평가 지표로 측정해야 함을 주장하며, 카메라 트랩과 비둘기 자세 추정 사례를 통해 기존 평가 방식의 한계를 보여줍니다.
이 논문은 Wasserstein 거리가 데이터 분포 간 차이를 정량화할 수 있지만 그 원인을 설명하기 어렵다는 한계를 극복하기 위해, 설명 가능한 AI 기법을 활용하여 해당 거리를 데이터 하위 그룹, 입력 특성 또는 해석 가능한 부분 공간과 같은 구성 요소에 효율적으로 귀속시키는 새로운 방법을 제안합니다.
이 논문은 온라인에서 수집된 대규모 텍스트 - 이미지 데이터의 노이즈 문제를 해결하기 위해, 불확실성을 모델링하는 키 특징 선택기 (KFS) 와 부정적 샘플의 난이도를 동적으로 조절하는 새로운 손실 함수 (DSH-Loss) 를 포함한 DURA 프레임워크를 제안하여 텍스트 기반 인물 검색의 성능과 강건성을 향상시켰습니다.
이 논문은 적대적 전처리를 거친 트랜스포머가 추가적인 적대적 훈련 없이도 다양한 다운스트림 작업에 대해 강건하게 적응할 수 있는 보편적 강건 인-컨텍스트 학습자임을 이론적으로 증명하고, 이를 통해 다운스트림 작업에서 '무료'로 강건성을 확보할 수 있음을 시사합니다.
본 논문은 점구름 완성의 품질을 제한하는 기존 Chamfer Distance 의 한계를 극복하기 위해, 국부 정밀도와 전역 완전성을 분리하여 비대칭 가중치를 적용한 '유연 가중 Chamfer Distance(FCD)'를 제안하고, 이를 통해 점군 응집 현상을 완화하고 전역적 구조 무결성을 크게 향상시킨다는 것을 입증합니다.