SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation
이 논문은 인접한 시각 토큰 간의 공발생 패턴을 활용한 구절 단위 추측적 검증 (Phrase Verification) 을 통해 학습 없이도 생성 품질을 유지하면서 자동회귀 이미지 생성의 추론 속도를 최대 30% 까지 향상시키는 'SJD-PV' 프레임워크를 제안합니다.
3615 편의 논문
이 논문은 인접한 시각 토큰 간의 공발생 패턴을 활용한 구절 단위 추측적 검증 (Phrase Verification) 을 통해 학습 없이도 생성 품질을 유지하면서 자동회귀 이미지 생성의 추론 속도를 최대 30% 까지 향상시키는 'SJD-PV' 프레임워크를 제안합니다.
이 논문은 수면 환경의 제한된 특징과 간섭으로 인해 기존 보정 방법이 부진한 문제를 해결하기 위해, 탐지 목표와 결합된 엔드 - 투 - 엔드 학습을 통해 외관 보정을 자동으로 미세 조정하는 트랜스포머 기반의 가분산 보정 융합 모델 'CalibFusion'을 제안합니다.
이 논문은 이미지 생성 모델에서 효과적이었던 의미적 잡음 초기화가 비디오 생성으로 확장될 때 통계적으로 유의미한 성능 향상을 보이지 않았으며, 이는 시간적 결합으로 인한 신호의 불안정성 때문임을 진단적 연구를 통해 규명했습니다.
이 논문은 역사적 유물인 반 에이크 형제의 '겐트 제단화' 단면 분석을 위해 대기 및 획득 아티팩트에 강인한 가중 스펙트럼 각도 거리 (WSAD) 손실 함수를 도입한 비지도 CNN 오토인코더를 제안하여, 복잡한 혼합 스펙트럼을 자동으로 분해하고 해석하는 새로운 방법을 제시합니다.
이 논문은 긴 과학 텍스트를 입력받아 참조 이미지의 스타일을 반영하면서도 수정이 가능한 고품질의 과학 일러스트레이션을 생성하는 엔드 투 엔드 시스템인 'AutoFigure-Edit'를 제안합니다.
이 논문은 제한된 주석 데이터 환경에서 옥수수, 쌀, 밀 잎의 질병 단계를 정확히 분류하고 Grad-CAM 을 통해 의사결정 과정을 설명 가능한 하이브리드 퓨샷 학습 모델을 제안합니다.
이 논문은 다차원 보상 간섭과 이질적 데이터 경계 충돌을 해결하는 병렬 상대적 정책 최적화 (PRPO) 와 제어된 오류 주입을 통한 객관적 평가를 가능하게 하는 MCDR-Bench 를 제안하여, 차트 데이터의 심층 연구 능력을 체계적으로 향상시키는 통합 프레임워크를 구축했습니다.
이 논문은 사용자의 환경 제어와 공유 추론을 가능하게 하기 위해 외부 메모리를 도입하고 생성 과정을 메모리, 관찰, 역학 모듈로 분해하여 편집 가능한 멀티플레이어 월드를 생성하는 'MultiGen' 시스템을 제안합니다.
이 논문은 이미지 내 가시성과 관점 추론 능력을 평가하기 위해 최소 편집을 기반으로 한 새로운 벤치마크 'VB'를 제안하고, 다양한 비전 - 언어 모델들의 성능을 정밀하게 분석한 결과를 제시합니다.
이 논문은 수련의가 작성한 초안 보고서를 전공의가 검토·수정하는 임상 워크플로우를 반영하여, 3 차원 의료 영상과 보고서 수정안을 매칭하고 수정 유형, 임상적 중증도, 영상 일치도를 평가하는 정교한 다중 모달 벤치마크 'RADAR'를 제안합니다.
이 논문은 텍스트와 시각 정보를 활용한 멀티미디어 이벤트 추출에서 기존 접근법의 오류 전파 문제를 해결하기 위해, 공유된 멀티미디어 이벤트 하이퍼그래프를 기반으로 전문 에이전트들이 협력하여 점진적으로 정보를 정제하는 'ECHO' 프레임워크와 지연된 역할 결정을 가능하게 하는 'Link-then-Bind' 전략을 제안하고 있음을 설명합니다.
이 논문은 스마트폰 카메라로 촬영한 영상을 활용하여 구조 운동 (SfM) 기법과 3 차원 분할 알고리즘을 통해 현장의 골재 적재장으로부터 개별 입자의 3 차원 형상을 재구성하고 크기와 모양을 분석하는 새로운 접근법을 제시합니다.
이 논문은 비전 - 언어 모델의 지리 - 시간적 추론 능력을 평가하기 위해 80 개국의 1,455 장 이미지를 포함한 'TimeSpot' 벤치마크를 제안하고, 기존 모델들의 성능이 특히 시간적 추론 분야에서 여전히 부족함을 입증했습니다.
이 논문은 생성형 AI 의 장기적 일관성과 다중 모달 제어 문제를 해결하기 위해 고수준 서사 계획과 동적 메모리 은행을 결합한 '내러티브 웨버 (Narrative Weaver)' 프레임워크를 제안하고, 이를 평가하기 위한 대규모 데이터셋을 공개한 연구입니다.
이 논문은 학습 데이터가 부재한 환경에서도 심한 노이즈가 포함된 입자 가속기 빔 진단 데이터를 위해, 합성곱 필터링과 최적화된 조기 종료 전략을 활용한 비지도 학습 프레임워크를 제안하여 빔 헤일로 구조를 7 표준편차 이상으로 정밀하게 재구성하고 에미턴스를 고충실도로 복원하는 방법을 소개합니다.
본 논문은 HSI 전용 사전 학습 없이 TerraMind 기반 모델이 대역 선택을 통해 HSI 하위 작업에 적응할 수 있음을 보여주지만, 성능 저하가 발생하므로 향후 멀티모달 아키텍처에는 네이티브 스펙트럼 토큰화 도입이 필요함을 주장합니다.
이 논문은 이동 로봇의 동적 시점에서의 셔틀콕 검출을 위해 새로운 데이터셋과 반자동 주석 파이프라인을 구축하고, 실시간 검출을 위한 YOLOv8 기반의 강인한 원샷 프레임워크를 제안하여 추적 및 궤적 추정 등 하위 작업의 기초를 마련했습니다.
이 논문은 불변성과 등변성 목표를 서로 다른 계층에 적용하는 '소프트 등변성 정규화 (SER)'를 제안하여, 기존 자기지도학습의 강건성과 전이 성능을 동시에 향상시키는 새로운 설계 원리를 제시합니다.
이 논문은 다중 사이트 간 in-vivo 인간 대상자 데이터 수집 없이도 이동 가능한 팬텀만으로 학습된 딥러닝 기반 HARP 프레임워크를 통해 확산 MRI 데이터의 기기 간 변이성을 효과적으로 조화시키고 대규모 임상 연구의 실용성을 높인다는 점을 제시합니다.
이 논문은 안구 추적 데이터를 시각적 추론을 위한 지도 신호로 활용하여 의료용 시각 - 언어 모델이 방사선 전문의와 유사한 순차적 증거 수집 방식을 학습하도록 함으로써 진단 성능과 외부 도메인 견고성을 향상시키는 방법을 제안합니다.