Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder
이 논문은 약한 엣지 디바이스에서도 초저비트레이트로 고품질 이미지 복원이 가능하도록, 얕은 인코더와 1 단계 확산 디코더를 결합한 비대칭 극한 이미지 압축 (AEIC) 프레임워크를 제안합니다.
5635 편의 논문
이 논문은 약한 엣지 디바이스에서도 초저비트레이트로 고품질 이미지 복원이 가능하도록, 얕은 인코더와 1 단계 확산 디코더를 결합한 비대칭 극한 이미지 압축 (AEIC) 프레임워크를 제안합니다.
이 논문은 경량 2 자유도 매니퓰레이터를 탑재한 언액추에이션 aerial manipulator 의 전역 엔드 이펙터 포즈 제어를 위해 시뮬레이션 기반 강화학습 (PPO) 과 비선형 동적 역제어 (INDI) 를 결합하여 외부 교란과 무거운 하중 조작에도 강인한 성능을 입증했습니다.
SVBench 는 발달 및 사회심리학에 기반한 30 가지 사회적 인지 패러다임을 활용하여 텍스트-비디오 생성 모델이 시각적 사실성은 높지만 의도, 감정, 사회적 규범 등 사회적 추론 능력에서는 한계가 있음을 체계적으로 평가한 최초의 벤치마크입니다.
이 논문은 방대한 레이블이 없는 수술 영상을 활용하여 가상-실제 데이터 쌍을 생성하는 세계 모델 (Cosmos-H-Surgical) 을 학습시킴으로써, 데이터 부족 문제를 해결하고 실제 수술 로봇에서 더 뛰어난 성능을 보이는 자율 수술 정책 개발을 가능하게 합니다.
이 논문은 언어 편향으로 인한 객체 환각을 완화하기 위해 사실적 텍스트 의미로 시각 - 텍스트 연동을 정밀하게 모델링하고 쿼리별 편집을 최적화하는 'AFTER'라는 새로운 적응형 사실 안내 활성화 편집 기법을 제안하여 LVLM 의 신뢰성을 크게 향상시켰음을 보여줍니다.
이 논문은 Implicit Neural Representations (INR) 을 활용하여 OCT 이미지의 비등방성 간격 문제를 해결하고, B-스캔 보간 및 해상도 무관한 망막 아틀라스 구축을 통해 연속적이고 일관된 3 차원 망막 분석을 가능하게 하는 두 가지 프레임워크를 제안합니다.
이 논문은 객체 지향 설계 (OOD) 평가를 위한 벤치마크 OODEval 과 인간 평가 데이터셋 OODEval-Human, 그리고 통합 평가 지표 CLUE 를 제안하고, 이를 통해 29 개의 대규모 언어 모델의 OOD 수행 능력을 심층 분석하여 높은 문법적 정확도에도 불구하고 의미적 결함이 존재함을 규명했습니다.
이 논문은 명시적 기하학적 원시와 신경 가우시안을 느슨하게 결합한 하이브리드 표현을 통해 스트리밍 3D 재구성에서 기하학적 정밀도와 렌더링 품질을 동시에 달성하면서도 기존 방법들보다 훨씬 빠른 속도로 안정적인 온프레임 재구성을 가능하게 하는 'PLANING' 프레임워크를 제안합니다.
본 연구는 온라인 리뷰 평가 순서 (평가 후 리뷰 vs. 리뷰 후 평가) 가 서비스 품질과 제품 속성에 따라 감성적 휴리스틱과 인지적 노력의 매개 작용을 통해 소비자 평점에 극단화 효과를 미친다는 것을 실험 및 대규모 데이터 분석을 통해 규명했습니다.
이 논문은 참조 이미지와 수정 텍스트로 구성된 다중 모달 쿼리를 기반으로 실제 이미지 데이터베이스에서 타겟 이미지를 검색하는 제로샷 합성 이미지 검색 (CIR) 과제에서, 기존 텍스트 기반 매칭 대신 대형 다중 모달 모델 (LMM) 을 활용하여 쿼리에 대한 '정신적 이미지'와 데이터베이스 내 각 이미지의 합성 버전을 생성하여 매칭하는 '파라코스 (Paracosm)'라는 새로운 훈련 없는 방법을 제안하고 있습니다.
KVSmooth 는 주시 엔트로피를 기반으로 키-값 캐시에 지수 이동 평균을 적용하는 훈련 없는 플러그인 방식을 통해 멀티모달 대규모 언어 모델의 환각 현상을 효과적으로 완화하고 전반적인 성능을 향상시킵니다.
이 논문은 로봇공학 분야에서 '지루하고, 더럽고, 위험한 (DDD)' 작업에 대한 개념이 어떻게 사용되어 왔는지 실증적으로 분석하고, 사회과학 문헌을 바탕으로 정의를 재정립하며 로봇 기술이 인간 노동에 미치는 영향을 고려할 수 있는 새로운 프레임워크를 제안합니다.
이 논문은 기존 시스템의 비효율적인 리소스 관리를 해결하기 위해 LLM 프로그램을 추상화하고 프로그램 인식 스케줄러 및 도구 리소스 관리자를 도입하여 KV 캐시 히트율과 처리량을 극대화하는 'ThunderAgent'라는 새로운 에이전트 추론 시스템을 제안합니다.
OmniVTON++ 는 재학습 없이 다양한 의류와 인물, 애니메이션 캐릭터에 적용 가능한 범용 가상 의류 착용 (VTON) 프레임워크로, 구조화된 의류 변형, 주요 자세 안내, 연속 경계 스티칭을 통해 기존 방법들의 일반화 한계를 극복하고 최첨단 성능을 달성합니다.
이 논문은 의료 영상 활성 학습에서 VLM 의 과도한 확신을 완화하고 해석 가능한 라벨 효율성을 확보하기 위해, 텍스트 - 이미지 유사성을 증거로 재해석하여 디리클레 분포를 기반으로 한 '유사성 증거 (SaE)' 프레임워크를 제안합니다.
이 논문은 이미지 기반 도메인의 안정적인 편미분방정식 이산화를 위해 경계와 교차하는 삼각형만 재삼각화하고 기저 메쉬를 유지하는 동기화 없는 병렬 실행이 가능한 템플릿 기반 삼각화 프레임워크를 제안하며, 이를 통해 슬리버 요소를 줄이고 기하학적 정밀도를 향상시킵니다.
이 논문은 근육골격 모델링을 기반으로 한 생체역학 인식 시뮬레이션 프레임워크와 이를 통해 구축된 대규모 3D 척추 운동 데이터셋 SIMSPINE 을 제안하여, 컴퓨터 비전과 생체역학 간의 간극을 해소하고 자연스러운 환경에서의 척추 운동 추정 성능을 획기적으로 향상시켰습니다.
이 논문은 -DRESS 프레임워크가 CFI 그래프 쌍을 구별한다는 무조건적 증명과 WL-Deck 분리 가설 하에 모든 그래프에서 -WL 보다 강력하다는 조건부 증명을 통해, 기존 실증적 연구에 대한 이론적 근거를 제시합니다.
이 논문은 비전 - 언어 모델 (VLM) 기반의 OOD 탐지 성능을 저해하는 내모달 거리 기반의 한계를 해결하기 위해, 텍스트와 시각적 관점에서 일관된 인터모달 거리를 활용하여 부정 텍스트를 선택하고 OOD 이미지를 텍스트 임베딩으로 변환하는 새로운 프레임워크 'InterNeg'를 제안하며, 이를 통해 다양한 벤치마크에서 기존 방법보다 뛰어난 성능을 달성함을 보여줍니다.
이 논문은 기존 CUDA 코어뿐만 아니라 최신 GPU 의 텐서 코어에서도 근거리 물리적 사이드 채널 공격을 통해 DNN 파라미터를 추출할 수 있음을 최초로 증명하고, 100cm 떨어진 원거리에서도 LLM 의 하이퍼파라미터와 가중치가 유출될 수 있음을 보여줍니다.