HiconAgent: History Context-aware Policy Optimization for GUI Agents
이 논문은 불필요한 정보로 인한 계산 오버헤드를 줄이면서도 역사적 맥락을 효과적으로 활용하기 위해 동적 맥락 샘플링과 앵커 기반 역사 압축을 결합한 'HiconAgent'를 제안하고, 이를 통해 더 작은 모델로도 기존 최첨단 모델보다 뛰어난 성능과 효율성을 달성함을 보여줍니다.
1871 편의 논문
이 논문은 불필요한 정보로 인한 계산 오버헤드를 줄이면서도 역사적 맥락을 효과적으로 활용하기 위해 동적 맥락 샘플링과 앵커 기반 역사 압축을 결합한 'HiconAgent'를 제안하고, 이를 통해 더 작은 모델로도 기존 최첨단 모델보다 뛰어난 성능과 효율성을 달성함을 보여줍니다.
이 논문은 이해와 생성 능력을 통합하고 오디오 - 비디오 융합을 최적화하기 위해 '지휘자 - 창작자' 아키텍처와 AR-확산 모델을 결합한 다중 모달 대화 프레임워크 MAViD 를 제안하여 자연스럽고 일관된 장기간 대화형 오디오 - 비디오 생성을 가능하게 합니다.
이 논문은 비전 대규모 언어 모델 (VLLM) 의 깊은 층에서 기존 토큰 가지치기 방법이 무작위 제거보다 성능이 떨어지는 '정보의 소멸' 현상을 규명하고, 시각적 정보의 유효 깊이를 기반으로 무작위 가지치기를 결합한 새로운 전략을 제안하여 성능을 유지하면서 추론 효율을 극대화함을 보여줍니다.
이 논문은 오프로드 환경의 도로 네트워크 추출을 위해 대규모 벡터 데이터셋 'WildRoad'를 공개하고, 기존 노드 중심 방식의 한계를 극복하여 경로 중심 추론을 통해 강건한 연결성을 확보하는 'MaGRoad' 프레임워크를 제안합니다.
이 논문은 제한된 자원과 데이터 제약 하에 개발된 2 단계 생성적 데이터 증강 기법을 통해 가짜 마스크를 실제와 유사하게 변환하여 마스크 착용 얼굴 탐지 및 인식 성능을 향상시키는 방법을 제안합니다.
이 논문은 SALVE 라는 프레임워크를 제안하여 희소 오토인코더와 그라디언트 기반 시각화 기법을 결합해 신경망의 특징을 발견하고 검증하며, 이를 통해 모델의 가중치 공간을 정밀하게 편집하여 AI 시스템의 투명성과 제어 가능성을 높이는 방법을 제시합니다.
이 논문은 가림, 빠른 운동, 장기 재진입과 같은 수술 장면의 어려움으로 인해 SAM3 의 성능이 제한되는 문제를 해결하기 위해, 관련성 기반 메모리 필터링, 메모리 용량 확장, 그리고 재식별 모듈을 포함한 훈련 없는 ReMeDI-SAM3 을 제안하여 EndoVis 및 CholecSeg8k 데이터셋에서 기존 방법보다 우수한 분할 정확도를 달성함을 보여줍니다.
이 논문은 전 세계 5 개국 1,000 명의 설문과 거리 영상 데이터를 분석하여 도시 녹지에 대한 주관적 인식과 객관적 측정치 간의 불일치를 규명하고, 인구통계학적·성격적 요인보다 거주 지역의 문화적·환경적 배경이 인식 차이를 설명하는 가장 중요한 요인임을 밝혔습니다.
이 논문은 기초 모델과 대규모 2D 확산 모델의 강점을 결합하여, 깊이 지도를 재조명하고 입력 이미지를 증강하는 자기지도 학습 프레임워크인 'Re-Depth Anything'을 제안함으로써 단안 깊이 추정의 도메인 격차를 해소하고 정밀도와 현실감을 획기적으로 향상시킨다고 설명합니다.
이 논문은 단일 이미지 기반 3D 의미 장면 완성 (SSC) 작업에서 가시 영역의 고신뢰도 인식과 가려진 영역의 추론 간 간섭 문제를 해결하기 위해, 가시 영역 라벨 추출 전략과 가시 - 가려진 영역 상호작용을 활용한 이중 디코더 네트워크 (VOIC) 를 제안하여 기존 방법보다 우수한 성능을 달성함을 보여줍니다.
이 논문은 2D 패치 추출과 하이브리드 스캐닝을 활용한 다중 헤드 선택적 상태 공간 모델 (MHSSM) 과 경량 채널 MLP 를 결합하여, 기존 딥러닝 기반 MRI 초해상도 방법들보다 압도적으로 적은 계산 비용으로 높은 정확도와 해부학적 세부 정보를 유지하는 효율적인 프레임워크를 제안합니다.
이 논문은 자율주행 생성형 월드 모델의 발전을 촉진하기 위해 다양한 평가 데이터셋과 시각적 사실성, 궤적 타당성, 시간적 일관성, 제어 가능성 등을 종합적으로 측정하는 새로운 메트릭을 포함한 포괄적인 벤치마크 'DrivingGen'을 제안합니다.
이 논문은 Swin Transformer 비전 인코더와 시퀀스 - 시퀀스 언어 디코더를 통합한 경량 2 단계 멀티태스크 프레임워크를 제안하여 작물 질병 시각적 질문 응답 (VQA) 에서 높은 정확도와 설명 가능성을 달성하고 PlantVillageVQA 벤치마크에서도 우수한 일반화 성능을 입증했습니다.
이 논문은 의료 영상 분석을 위해 라우팅, 검색, 반성, 수리를 수행하는 4 단계 에이전트 프레임워크인 R^4 를 제안하여, 미세 조정 없이도 대형 비전 - 언어 모델의 추론 정확도와 공간적 근거력을 크게 향상시킨다는 것을 보여줍니다.
이 논문은 시각 생성 AI 모델의 학습 데이터 선별에 널리 사용되는 'LAION-Aesthetics Predictor'를 감사 및 추적 민속지학적 방법으로 분석한 결과, 해당 모델이 서구 중심의 미적 기준과 성별 편향을 반영하여 여성, LGBTQ+ 및 비서구 예술을 배제하는 등 대표성 해악을 재생산함을 규명하고, 이를 극복하기 위해 더 다양하고 포용적인 평가 체계로의 전환을 촉구하고 있습니다.
이 논문은 모바일 기기에서 실시간으로 고품질 비디오를 생성할 수 있도록 효율적인 어텐션 메커니즘과 샌드위치 구조, 그리고 2-in-1 증류 프레임워크를 도입한 'S2DiT'를 제안하여 서버급 성능을 iPhone 에서 초당 10 프레임 이상으로 구현한 연구입니다.
이 논문은 비전-프로프리오셉션 불균형으로 인한 '잘못된 완료 (False Completion)' 문제를 해결하기 위해, 작업 단계 관찰자를 통해 시각적 단서를 적응적으로 조절하는 새로운 VLA 프레임워크인 ReViP 를 제안하고, 이를 통해 기존 모델 대비 성공률을 26% 향상시켰음을 입증합니다.
이 논문은 자율주행 시나리오에서 비전 - 언어 모델 (VLM) 의 성능을 평가하기 위해 3,847 시간 분량의 주행 영상과 다중 세분화 주석을 기반으로 구축된 대규모 벤치마크 'ScenePilot-Bench'를 소개하고, 이를 통해 모델의 현재 한계와 개선 방향을 규명합니다.
이 논문은 오디오 신호의 주파수 영역 특성과 질문 기반의 공간적·시간적 상호작용을 통합하여 기존 오디오·비디오 질문 응답 (AVQA) 방법의 한계를 극복하고 성능을 크게 향상시킨 'QSTar'라는 새로운 상호작용 기법을 제안합니다.
이 논문은 기존 캐싱 방법의 한계를 극복하고 Jacobian-벡터 곱을 활용한 평균 속도 관점과 궤적 안정성 스케줄링 전략을 통해 FLUX.1 및 HunyuanVideo 등 다양한 모델에서 고품질 생성을 유지하면서 3.5 배 이상 가속화를 실현하는 훈련 불필요한 MeanCache 프레임워크를 제안합니다.