Twin Co-Adaptive Dialogue for Progressive Image Generation
이 논문은 사용자의 피드백과 동기화된 대화 에이전트를 통해 이미지 생성을 점진적으로 정제하고 모호성을 해소하는 'Twin-Co' 프레임워크를 제안하여 사용자 경험과 생성 품질을 동시에 향상시키는 방법을 제시합니다.
7634 편의 논문
이 논문은 사용자의 피드백과 동기화된 대화 에이전트를 통해 이미지 생성을 점진적으로 정제하고 모호성을 해소하는 'Twin-Co' 프레임워크를 제안하여 사용자 경험과 생성 품질을 동시에 향상시키는 방법을 제시합니다.
본 논문은 확산 모델이 학습한 스코어 함수를 기반으로 -라플라시안 연산자를 수치적으로 근사하고 이론적 오차 한계를 증명하여, 조건부 텍스트가 없는 상황에서도 훈련 데이터의 암기를 효과적으로 식별할 수 있음을 보여줍니다.
본 연구는 사전 학습된 트랜스포머 기반의 SMIT 모델을 균형 있는 커리큘럼 학습으로 미세 조정하여, 라벨이 지정된 훈련 데이터의 양을 크게 줄이면서도 다양한 환자 및 영상 조건에 걸쳐 방사선 치료 계획에 필요한 심장 하부 구조 분할의 정확도와 견고성을 유지할 수 있음을 입증했습니다.
이 논문은 비전 - 언어 모델 (VLM) 의 잠재 공간 내 안전 결정 경계를 탐지하고 교차하는 새로운 'JailBound' 프레임워크를 제안하여, 기존 방법론의 한계를 극복하고 다양한 모델에서 기존 최첨단 기법보다 높은 성공률로 안전 장벽을 우회하는 공격을 가능하게 함을 보여줍니다.
이 논문은 대규모 데이터와 계산 자원이 없이도 비전 - 언어 모델이 학습 중 자신의 필요에 따라 가장 유익한 샘플을 동적으로 선택하여 효율적으로 학습할 수 있도록 하는 'PROGRESS'라는 새로운 프레임워크를 제안하고 그 우수성을 입증합니다.
이 논문은 스페이셜 - 타임 마스크를 활용하여 LoRA 미세 조정을 수행함으로써, 소스 비디오의 내용 보존과 새로운 콘텐츠 생성을 동시에 제어하고 사용자 지정 참조 프레임을 통해 시간적 일관성을 갖춘 정교한 비디오 편집을 가능하게 하는 'LoRA-Edit' 방법을 제안합니다.
이 논문은 단일 카메라의 교차 노출 방식이 가진 시간적 깜빡임 문제를 해결하기 위해, 노출 제어가 독립적인 비동기 듀얼 카메라 시스템과 노출 적응형 퓨전 네트워크 (EAFNet) 를 도입하여 안정적이고 고화질의 HDR 비디오를 생성하는 새로운 학습 기반 방법을 제안합니다.
이 논문은 고해상도 생성을 위한 Diffusion Transformer 의 계산 효율성을 높이기 위해, 아티팩트 없이 공간적 가속을 가능하게 하는 훈련 불필요의 혼합 해상도 잠재 업샘플링 프레임워크인 RALU 를 제안합니다.
이 논문은 소프트웨어 보안의 ROP 기법을 차용하여 해로운 지시를 개별적으로 안전해 보이는 시각적 요소들의 시퀀스로 분해하고 이를 프로그래밍적으로 조작함으로써 대형 시각 - 언어 모델의 안전 장치를 우회하는 'PRISM'이라는 새로운 자일브레이크 프레임워크를 제안하고, 이를 통해 기존 방법들보다 월등히 높은 공격 성공률을 달성함을 입증합니다.
이 논문은 생체의학 이미지 이해를 위해 비 autoregressive 인 대규모 언어 확산 모델인 LLaDA-MedV 를 처음 제안하여, 오픈형 대화 및 폐쇄형 VQA 벤치마크에서 기존 최첨단 모델들을 능가하는 성능을 입증하고 학습 및 추론 과정에 대한 심층 분석을 제공합니다.
이 논문은 비정형적인 야외 환경에서 자연어 명령을 통해 목표 팔레트를 식별하고 6D 포즈를 추정하여 자율 포크리프트가 팔레트 적재 작업을 수행할 수 있도록 하는 'Lang2Lift' 시스템을 제안하고 실증합니다.
이 논문은 시리얼라이제이션 기반 3D 객체 감지 프레임워크의 희소성 한계를 극복하기 위해, 희소 3D 합성곱을 활용한 전처리 공간 확장 모듈인 Voxel Densification Module(VDM) 을 제안하여 Waymo 및 nuScenes 등 주요 벤치마크에서 기존 모델 대비 감지 정확도를 획기적으로 향상시켰습니다.
이 논문은 기존 토큰 압축 방법의 한계를 극복하고 LLM 내 시각 토큰의 변이 특성을 활용하여 동적으로 토큰을 제거하는 V²Drop 을 제안함으로써, 성능 저하 없이 이미지 및 비디오 이해 작업의 추론 지연을 각각 31.5% 와 74.2% 획기적으로 단축합니다.
이 논문은 CheXpert 데이터셋에서 EfficientNetV2-S 와 유사한 분류 성능을 유지하면서도 사후 해석 기법 없이 이미지 패치 기반의 명확한 진단 근거를 제공하여 임상 신뢰도를 높이는 'MedicalPatchNet'이라는 새로운 자기 설명형 AI 아키텍처를 제안합니다.
이 논문은 인간의 좌우뇌 기능을 모방하여 공간 기하학적 정보와 시각적 의미 정보를 각각의 고정 크기 암시적 신경 메모리로 분리·모델링함으로써 기존 방법들의 공간 정보 손실 및 계산 비효율성을 해결하고, Vision-Language Navigation 분야에서 최첨단 성능을 달성한 'JanusVLN' 프레임워크를 제안합니다.
이 논문은 외부 시각적 단어가 생성하는 잠재적 식별자 'Grounding IDs'를 통해 멀티모달 바인딩이 강화되고 환각이 감소하는 메커니즘을 규명하여, 외부 단서가 어떻게 구조적 추론을 개선하는지 설명합니다.
이 연구는 방사선 이미지 기반 시각적 질문 응답 (VQA) 에서 이산적 의미 엔트로피 (DSE) 를 활용하여 환각을 필터링함으로써 블랙박스 비전 - 언어 모델의 진단 정확도를 유의미하게 향상시킬 수 있음을 입증했습니다.
이 논문은 기존 블랙박스 공격의 비현실적인 가정을 극복하고, 참조 모델 학습 없이 신경망의 암묵적 편향과 KKT 조건을 활용하여 모델 가중치와 학습 데이터의 부분집합만으로도 최첨단 성능의 멤버십 추론 공격 (ImpMIA) 을 제안합니다.
이 논문은 시각 이해와 생성 능력을 분리하지 않고 상호 연계된 8 가지 학문 분야에 걸쳐 양방향 시너지를 평가하는 포괄적인 벤치마크인 'Uni-MMMU'를 제안하며, 이를 통해 통합 멀티모달 모델의 성능 격차와 상호 의존성을 규명합니다.
이 논문은 CLIP 모델과 네트워크 수술 기법을 결합하여 이미지의 예측에 가장 크게 기여하는 주요 개념을 캡션 기반으로 식별함으로써, CNN 모델의 편향을 탐지하고 강건성을 향상시키는 새로운 설명 가능한 인공지능 (XAI) 방법을 제안합니다.