MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection
이 논문은 단일 이미지에 국한된 기존 한계를 극복하기 위해 다중 이미지 샘플로 구성된 새로운 벤치마크 MMSD3.0 과 교차 이미지 추론 모델 (CIRM) 을 제안하여, 실제 세계의 다중 이미지 맥락에서 발생하는 멀티모달 풍자 감지 성능을 획기적으로 향상시켰습니다.
6582 편의 논문
이 논문은 단일 이미지에 국한된 기존 한계를 극복하기 위해 다중 이미지 샘플로 구성된 새로운 벤치마크 MMSD3.0 과 교차 이미지 추론 모델 (CIRM) 을 제안하여, 실제 세계의 다중 이미지 맥락에서 발생하는 멀티모달 풍자 감지 성능을 획기적으로 향상시켰습니다.
이 논문은 적대적 공격 하에서 CLIP 의 성능 저하를 유발하는 텍스트와 이미지 특징 간의 불일치 문제를 해결하기 위해, 최적 수송 기반의 학습 없는 프레임워크인 COLA 를 제안하여 전역적 정렬과 국소적 구조 일관성을 복원함으로써 다양한 벤치마크에서 적대적 공격에 대한 강인성을 크게 향상시킨다는 내용을 담고 있습니다.
이 논문은 사전 학습된 시각 표현의 취약성을 해결하기 위해 작업과 관련된 시각적 단서에만 주의를 기울이고 방해 요소를 무시하도록 학습되는 경량화된 '주의 기반 특징 집계 (AFA)' 메커니즘을 제안하여, 데이터 증강이나 추가 미세 조정 없이도 시각적 교란이 있는 환경에서 강인한 시각 - 운동 정책을 가능하게 함을 보여줍니다.
이 논문은 흐름 매칭 (Flow Matching) 모델에서 제한된 샘플링 예산 하에 희귀하지만 중요한 결과를 포착하기 위해 점수 기반 정규화와 중요도 가중치를 도입하여 비 IID 샘플링을 수행하고 편향 없는 기대값 추정을 가능하게 하는 새로운 프레임워크를 제안합니다.
본 연구는 제한된 뇌 MRI 데이터를 활용한 뇌종양 분류 실험을 통해, 의료 도메인 특화 데이터로 사전 학습된 RadImageNet DenseNet121 보다는 대규모 일반 도메인 데이터로 학습된 최신 범용 CNN 인 ConvNeXt-Tiny 가 더 높은 정확도 (93%) 를 보여 의료 영상 분석에서 일반 도메인 사전 학습 모델의 전이 학습 효과가 더 우수할 수 있음을 입증했습니다.
이 논문은 생성된 비디오의 시각적 품질, 동적 품질, 텍스트 - 비디오 정합성이라는 세 가지 핵심 차원을 체계적으로 정의하고 통합적으로 평가하기 위해 약 10,000 개의 비디오 샘플과 세부적 귀속 설명이 포함된 Q-Save 데이터셋과 이를 기반으로 점수 예측과 해석 가능한 설명 생성을 동시에 수행하는 통합 모델을 제안합니다.
이 논문은 700 만 개의 대규모 데이터셋과 모방 학습 및 사회적 인식 흐름 탐색 강화 학습 (SAFE-GRPO) 을 기반으로 한 계층적 '뇌 - 행동' 아키텍처를 통해 사회적 규범을 준수하는 지능형 내비게이션을 가능하게 하는 'SocialNav'라는 새로운 기초 모델을 제안합니다.
이 논문은 긴 비디오 이해의 효율성 문제를 해결하기 위해, 경량 드래프트 모델이 중요한 프레임을 제안하고 강력한 타겟 모델이 이를 검증하는 협력적 이중 모델 설계와 강화 학습 기반의 'SpecTemp' 프레임워크를 제안합니다.
이 논문은 방사선 피폭 제한으로 인한 다중 모달리티 CT 데이터의 결측 문제를 해결하기 위해, 시간-감쇠 곡선 상의 결측 샘플점으로 재정의하고 해부학적 정적 성분과 관류 동적 성분을 분리하는 물리 인식 프레임워크인 TARDis 를 제안하여 불완전한 모달리티 환경에서도 우수한 종양 분할 및 분류 성능을 달성함을 보여줍니다.
이 논문은 카메라 메타데이터 (EXIF) 를 활용한 자기지도 학습 방식을 통해 다양한 생성 모델과 실제 환경에서 강건한 AI 생성 이미지 탐지기를 제안하고, 기존 방법론의 한계를 극복하며 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 지도 해석에 필요한 다단계 추론 능력을 평가하기 위해 FRIEDA 라는 새로운 벤치마크를 제안하고, 최신 대규모 시각-언어 모델들이 인간에 비해 지도 기반 공간 추론에서 여전히 큰 성능 격차를 보이고 있음을 입증합니다.
이 논문은 단일 이미지에서 1 초 미만으로 3D 가우스 표현을 회귀하여 실시간 고해상도 시점 합성을 가능하게 하고, 기존 최첨단 모델 대비 LPIPS 와 DISTS 지표를 크게 개선한 SHARP 라는 새로운 방법을 제안합니다.
이 논문은 이벤트 카메라의 고해상도 시간 정보를 활용하기 위해 기하학적 렌더링과 광도 렌더링을 분리하는 새로운 3D 가우스 스플래팅 프레임워크를 제안하여, 사전 정보나 초기화 없이도 정밀하고 빠른 3D 재구성을 가능하게 합니다.
이 논문은 자율주행의 실시간성, 안전성, 해석 가능성을 동시에 확보하기 위해 텍스트 추론을 잠재 공간으로 전환하고 계층적 병렬 경로를 생성하는 통합 비전 - 언어 - 행동 프레임워크인 ColaVLA 를 제안하며, nuScenes 벤치마크에서 기존 최첨단 성능을 달성했다고 요약할 수 있습니다.
이 논문은 잠재 세계 모델 (VJEPA-2) 을 보상 신호로 활용하여 추론 시 여러 생성 경로를 탐색하고 조정하는 'WMReward'를 제안함으로써, 기존 비디오 생성 모델의 물리 법칙 위반 문제를 해결하고 ICCV 2025 Perception Test PhysicsIQ 챌린지에서 1 위를 차지한 성과를 거두었음을 보여줍니다.
이 논문은 채널 순서에 의존하지 않고 데이터로부터 채널 간 구조를 추론하여 재학습 없이도 구조적 변화와 미시적 채널에 대한 일반화 성능을 보장하는 다변량 시계열 예측 프레임워크인 CPiRi 를 제안하고, 이를 통해 기존 방법론의 한계를 극복하고 최첨단 성능을 달성함을 보여줍니다.
이 논문은 자연 이미지 에지와 인위적인 감싸기 불연속성을 구분하여 고동적 범위 (HDR) 모듈로 이미징의 재구성 정확도를 획기적으로 개선하기 위해, 노출 변화에 대한 일관성을 강제하는 스케일 공변성 정규화와 원시 모듈로 이미지, 감싸기 유한 차분, 폐형식 초기화를 결합한 특징 리프팅 입력 설계를 도입한 학습 기반 HDR 복원 프레임워크를 제안합니다.
이 논문은 자연어 기반의 계층적 절차적 생성 프레임워크인 CityGenAgent 를 제안하여, 지도 학습과 강화 학습을 결합해 고해상도 3D 도시의 구조적 정확성과 시각적 일관성을 보장하면서도 자연어 편집이 가능한 자동 생성 및 조작 기술을 실현합니다.
이 논문은 기존 기계적 망각 방법들이 내부 특징 표현을 남기는 '피상적 망각' 문제를 해결하기 위해, 네트워크의 모든 계층에서 대비 학습과 심층 감독 학습을 결합하여 원본 모델의 표현적 유사성을 효과적으로 제거하는 'Erase at the Core (EC)' 프레임워크를 제안합니다.
이 논문은 기존 고해상도 이미지 생성 방법의 높은 계산 비용을 해결하고, 패치 기반 역추적 없이 20 초 내에 4K 이미지를 생성하면서도 뛰어난 화질을 유지하는 훈련 불필요 (training-free) 프레임워크인 'PixelRush'를 제안합니다.