WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development
이 논문은 HTML 의 계층적 구조와 UI 디자인 간의 간극을 해결하기 위해 구조 인식 어텐션 메커니즘과 대비 학습을 결합한 'Waffle'이라는 미세 조정 전략을 제안하여, 기존 방법보다 WebSight-Test 와 Design2Code 벤치마크에서 성능을 크게 향상시킨 다중 모달 모델을 소개합니다.
5561 편의 논문
이 논문은 HTML 의 계층적 구조와 UI 디자인 간의 간극을 해결하기 위해 구조 인식 어텐션 메커니즘과 대비 학습을 결합한 'Waffle'이라는 미세 조정 전략을 제안하여, 기존 방법보다 WebSight-Test 와 Design2Code 벤치마크에서 성능을 크게 향상시킨 다중 모달 모델을 소개합니다.
이 논문은 bicubic 다운샘플링과 같은 단순한 열화 가정을 넘어 실제 세계의 열화 정보를 반영하고, 잠재 공간에서 경사 하강을 시뮬레이션하는 경량 모듈인 LaGAR 를 도입하여 기존 확산 기반 방법 대비 200 배 이상의 추론 가속과 향상된 화질을 달성하는 원형 이미지 초해상도 프레임워크 'RealOSR'을 제안합니다.
본 논문은 장기적인 시간적 일관성을 유지하면서 계산 효율성을 확보하고, 새로운 슬롯 대비 손실을 통해 표현의 해리성을 향상시킨 자기지도 학습 기반의 'Slot-BERT' 모델을 제안하여, 다양한 수술 영상의 비지도 객체 발견 및 제로샷 도메인 적응에서 기존 최첨단 기법보다 우수한 성능을 입증했습니다.
이 논문은 MLP, 트리플레인, 해시 테이블 등 다양한 아키텍처와 훈련 시 보지 못한 아키텍처까지 처리할 수 있는 최초의 그래프 메타 네트워크 프레임워크를 제안하여, NeRF 의 가중치를 아키텍처에 구애받지 않는 잠재 공간으로 변환하고 분류, 검색, 언어 태스크에서 기존 단일 아키텍처 기반 방법론을 능가하는 성능을 입증합니다.
이 논문은 가우시안 분포를 가정하는 다중 그래프 매칭에 순환 일관성 (cycle consistency) 손실과 베이지안 최적화를 결합한 완전 비지도 학습 방식을 제안하여, C. elegans 의 3D 현미경 이미지에서 그라운드 트루스 주석 없이도 최첨단 지도 학습 수준의 정확도로 세포 어트라스를 구축하고 대규모 생물학적 데이터의 의미론적 주석 병목 현상을 해결합니다.
이 논문은 자율주행 차량의 교통 표지판 인식 시스템을 적대적 패치 공격으로부터 보호하기 위해, 사전 지식 없이 다양한 크기의 패치에 대응 가능하며 실시간 배포가 용이한 GAN 기반의 단일 단계 방어 전략을 제안하고 그 유효성을 입증합니다.
이 논문은 사용자 정의 자연어 지시를 통해 개방형 환경에서 가변적인 이상 정의를 감지할 수 있는 새로운 패러다임인 LaGoVAD 모델과 이를 학습하기 위한 대규모 데이터셋 PreVAD 를 제안하여 약한 감독 하의 비디오 이상 탐지 성능을 획기적으로 개선했습니다.
이 논문은 기존 확산 모델 증류의 효율성 한계를 극복하기 위해 중간 단계 계산을 줄이는 '스케일별 증류 (SwD)' 프레임워크와 MMD 기반의 새로운 증류 목표를 제안하여, 적은 계산 비용으로도 고품질의 2 단계 샘플링 속도와 성능을 달성함을 보여줍니다.
이 논문은 민감한 시각 데이터의 프라이버시를 보호하면서도 정확도를 유지하기 위해 Projected DP-SGD 와 Feature Differential Privacy 를 결합한 새로운 2D 인간 자세 추정 프레임워크를 제안하고, MPII 데이터셋 실험을 통해 기존 비개인화 모델에 근접한 성능을 입증했습니다.
이 논문은 비디오 확산 모델의 초기 노이즈 선택을 개선하기 위해 모델 내부의 어텐션 불확실성을 정량화하여 고품질 시드를 선별하는 ANSE 프레임워크와 베이지안 어텐션 기반의 BANSA acquisition 함수를 제안합니다.
이 논문은 자율주행 차량의 BEV 3D 물체 탐지기의 취약점을 드러내기 위해, 대상 차량을 변형하지 않고 환경에 배치된 3D 보편적 적대적 객체를 생성하여 다중 뷰와 시간적 일관성을 보장하는 새로운 비침습적 공격 프레임워크 'SABER'를 제안합니다.
이 논문은 전자기장 모델링의 한계를 극복하기 위해 쿼크와 반쿼크 간의 강한 상호작용에서 영감을 받아 정전기장 매칭 (EFM) 을 일반화한 '상호작용장 매칭 (IFM)'을 제안하고, 이를 통해 다양한 데이터 생성 및 전이 작업에서 우수한 성능을 입증합니다.
이 논문은 STEM 중심의 기존 벤치마크의 한계를 극복하고 인문사회과학 (HSS) 분야의 다국어 평가와 교차 학문적 추론 능력을 측정하기 위해 전문가와 자동 에이전트의 협업을 통해 13,000 개 이상의 샘플로 구성된 'HSSBench'를 제안하고, 이를 통해 최신 다중모달 대규모 언어 모델들이 여전히 큰 도전에 직면해 있음을 입증합니다.
이 논문은 대규모 비디오 모델의 파인튜닝 없이도 키프레임, 스타일 참조 이미지, 스케치, 깊이 맵 등 다양한 프레임 단위 신호를 통해 고품질의 제어된 비디오를 생성할 수 있는 새로운 훈련 없는 방법인 'Frame Guidance'를 제안합니다.
이 논문은 기존 강화학습 방법이 MLLM 의 시각적 지각 능력을 향상시키지 못한다는 문제를 발견하고, 시각적 지각 보상을 도입하여 지각과 추론 능력을 동시에 개선하는 'Perception-R1'을 제안함으로써 소량의 데이터로도 최첨단 성능을 달성함을 보여줍니다.
이 논문은 미교정 비디오 스트림에서 실시간으로 동적 3D 장면을 재구성하는 풀 피드포워드 프레임워크인 StreamSplat 을 제안하며, 확률적 샘플링, 양방향 변형 필드, 적응형 가우시안 융합을 통해 최적화 기반 방법 대비 1200 배의 속도 향상과 최첨단 재구성 품질을 달성합니다.
이 논문은 기존 휴리스틱에 의존하지 않고 유전 알고리즘을 통해 각 모델에 최적화된 캐싱 일정을 학습하여 확산 모델의 추론 속도를 획기적으로 개선하면서도 화질 저하를 최소화하는 '진화적 캐싱 (ECAD)' 방법을 제안합니다.
이 논문은 텍스트 중심 추론을 위해 텍스트 - 이미지 생성 모델을 활용해 실시간으로 생성된 이미지를 시각적 사전지식으로 활용하는 '합성 지각' 접근법이 텍스트와 이미지의 의미적 정렬, 작업의 시각적 구체성, 생성 모델의 충실도에 따라 언어 이해를 강화할 수 있음을 체계적으로 검증했습니다.
이 논문은 자율주행 시스템 훈련을 위해 정적 초기화나 로그 재생에 의존하지 않고 트랜스포머 모델을 활용해 교통 신호, 에이전트 상태, 운동 벡터를 토큰 시퀀스로 표현하여 무한한 시간 범위 내에서 에이전트를 동적으로 생성 및 제거하는 연속 시나리오 생성 프레임워크 'SceneStreamer'를 제안합니다.
이 논문은 Classifier-Free Guidance 의 온도를 동적으로 조절하는 어닐링 스케줄러를 제안하여, 추가적인 계산 비용 없이 텍스트 - 이미지 생성의 품질과 프롬프트 정합성을 동시에 향상시키는 방법을 제시합니다.