Head-wise Adaptive Rotary Positional Encoding for Fine-Grained Image Generation
이 논문은 이미지 생성에서 정교한 공간 관계 및 객체 수 세기 등의 한계를 해결하기 위해, RoPE 의 주파수 할당과 헤드 처리 방식을 적응적으로 조정하는 경량화된 HARoPE 를 제안하고 ImageNet 및 텍스트 - 이미지 생성 작업에서 기존 RoPE 기반 모델보다 우수한 성능을 입증합니다.
8122 편의 논문
이 논문은 이미지 생성에서 정교한 공간 관계 및 객체 수 세기 등의 한계를 해결하기 위해, RoPE 의 주파수 할당과 헤드 처리 방식을 적응적으로 조정하는 경량화된 HARoPE 를 제안하고 ImageNet 및 텍스트 - 이미지 생성 작업에서 기존 RoPE 기반 모델보다 우수한 성능을 입증합니다.
이 논문은 손으로 주석된 카메라 포즈 없이도 가상 카메라 뱅크와 시공간 자동회귀 영상 인페인팅을 결합하여 4D 콘텐츠를 생성하는 'See4D' 프레임워크를 제안합니다.
이 논문은 구멍이 있는 다각형의 경계 위에 배치된 감시자들이 다각형 전체의 경계를 감시하는 '경계-경계 미술관 문제'가 NP 에 속함을 증명하기 위해, 변수가 최대 2 개인 연속 제약 충족 문제에 대한 제약 전파 절차를 개발하고, 해가 무리수 좌표를 가질 수 있어 이산화가 어렵다는 점을 보였습니다.
이 논문은 사전 훈련된 로봇 정책의 아키텍처를 변경하지 않고도 기초 모델의 시맨틱 지식을 주입하여 성능을 향상시키는 경량 프레임워크 'GUIDES'를 제안하며, 이를 통해 시뮬레이션 및 실세계 환경에서 작업 성공률과 동작 정밀도를 크게 개선함을 보여줍니다.
이 논문은 퍼즐 조각을 이산 토큰 시퀀스로 변환하여 자연어 처리 기반의 시퀀스 투 시퀀스 언어 모델을 적용함으로써, 시각적 매칭 없이도 기호적 추론만으로 기존 최첨단 성능을 능가하는 퍼즐 재구성 방법인 PuzLM 을 제안합니다.
이 논문은 시간을 행동의 제어 차원으로 간주하여 단일 정책이 남은 시간과 시간 비율 신호를 통해 실행 속도와 전략을 실시간으로 조절할 수 있게 하는 '시간 인식 정책 학습' 프레임워크를 제안함으로써, 로봇의 효율성, 강건성 및 인간 제어 가능성을 향상시킵니다.
이 논문은 사전 훈련된 모델의 무단 병합을 방지하기 위해 작업 정확도는 유지하면서 병합된 모델의 성능을 최대 90% 저하시키는 능동적 이중 단계 가중치 보호 프레임워크인 'MergeGuard'를 제안합니다.
이 논문은 특정 대상에게 최적화된 바이럴 콘텐츠를 자동 생성하여 정보 확산을 촉진하는 새로운 작업인 DOCG 와 이를 위한 강화 학습 기반의 정보 편집 알고리즘을 제안하고, 네트워크 구조 없이도 확산 효과를 평가하고 원본의 핵심 의미를 유지하면서 전파력을 높이는 것을 입증합니다.
이 논문은 LLM 기반 지식 그래프를 활용한 커리큘럼 학습을 통해 답변 생성에 필수적인 문서를 정확히 식별하도록 최적화한 새로운 검색기 미세 조정 프레임워크 'ARK'를 제안하여, 긴 맥락 환경에서의 RAG 성능을 획기적으로 개선했음을 보여줍니다.
이 논문은 비디오 이해 모델의 환각을 줄이고 추론 신뢰도를 높이기 위해 지각 증거를 추론 텍스트와 분리하여 구조화된 형태로 표현하고, 이를 기반으로 한 새로운 보상 학습 프레임워크인 DPL 을 제안합니다.
본 논문은 embodied agent 의 미세한 행동 지능을 평가하기 위해 물리적 상호작용, 인과관계, 의도 이해, 평가적 판단이라는 네 가지 인지 능력을 측정하는 새로운 벤치마크인 CFG-Bench 를 제안하고, 이를 통해 기존 MLLM 의 한계를 규명함과 동시에 미세 행동 학습이 embodied 벤치마크 성능 향상에 기여함을 입증했습니다.
이 논문은 대규모 에이전트 협업의 핵심인 에이전트 능력 발견의 과제를 해결하기 위해 자율적 능력 발표와 작업 기반 능력 발견을 통합한 새로운 2 단계 프레임워크를 제안하고, 이를 통해 성능과 확장성을 향상시키는 방안을 모색합니다.
이 논문은 실제 생물학적 데이터에서 흔히 관찰되는 낮은 스캔폭 (scanwidth) 특성을 활용하여, 불확실성을 고려한 소프트 트리 포함 (Soft Tree Containment) 문제를 해결하는 효율적인 알고리즘을 제시합니다.
이 논문은 인식 모델과 대규모 언어 모델 (LLM) 간의 폐쇄 루프 피드백을 통해 유사 동작 구분을 위한 정밀한 관절 수준 제약을 생성하는 'SkeletonAgent'라는 새로운 에이전트 상호작용 프레임워크를 제안하여, 다양한 벤치마크에서 기존 최첨단 방법들을 능가하는 성능을 입증했습니다.
이 논문은 도메인 일반화 능력을 향상시키기 위해 분할된 소스 도메인에서 파라미터 효율적 전문가 모델을 학습하고 크로스-모달 어텐션을 통해 비전 인코더를 적응적으로 통합하는 'GuiDG' 프레임워크를 제안하며, 이를 통해 기존 미세조정 방법보다 우수한 성능과 효율성을 입증합니다.
이 연구는 두 개의 표본을 분석하여 인간 치료사가 정서적 지지와 개인화된 치료 측면에서 우위를 점하는 반면, AI 챗봇은 접근성과 비용 효율성에서 강점을 보이며, 사용자의 정신건강 도움 추구 의도는 각 모달리티의 장단점에 대한 신념이 상호 보완적으로 작용하는 '밀고 당기기' 과정을 통해 결정됨을 규명했습니다.
이 논문은 비접촉 상황에서는 정확도가 떨어지는 기존 시각 기반 3D 인간 자세 추정 문제를 해결하기 위해, 웨어러블 생임피던스 센서를 활용하여 피부 간 접촉 정보를 포착하고 이를 반영한 'BioTUCH'라는 새로운 프레임워크를 제안하여 재구성 정확도를 평균 11.7% 향상시켰음을 보여줍니다.
이 논문은 전체 슬라이드 이미지 (WSI) 의 방대한 시각 토큰을 효율적으로 압축하고 진단적으로 중요한 정보만 선택하여 병리학 멀티모달 대규모 언어 모델의 학습 비용과 추론 지연을 획기적으로 줄인 'LoC-Path'를 제안합니다.
SliceMoE 는 동적 비트 슬라이스 캐싱, 보정 없는 비대칭 마트료시카 양자화, 예측적 캐시 워밍업 기술을 통해 Miss Rate 제약을 준수하면서 온디바이스 MoE 추론의 에너지 효율성과 지연 시간을 획기적으로 개선하는 프레임워크를 제안합니다.
이 논문은 브러시드 메탈과 같은 이방성 반사 표면을 정확하게 모델링하기 위해 법선, 접선, 반사 농도 및 이방성 크기를 추정하는 새로운 프레임워크인 ShinyNeRF 를 제안합니다.