Vision-Based Hand Shadowing for Robotic Manipulation via Inverse Kinematics
이 논문은 안경에 장착된 단일 RGB-D 카메라를 통해 손의 3D 랜드마크를 추적하고 역기구학을 적용하여 저비용 로봇 팔을 제어하는 오프라인 핸드 섀도잉 파이프라인을 제안하며, 구조화된 환경에서는 높은 성공률을 보이지만 손 가림이 발생하는 비구조화된 환경에서는 성능이 급격히 저하됨을 실험을 통해 입증했습니다.
11544 편의 논문
이 논문은 안경에 장착된 단일 RGB-D 카메라를 통해 손의 3D 랜드마크를 추적하고 역기구학을 적용하여 저비용 로봇 팔을 제어하는 오프라인 핸드 섀도잉 파이프라인을 제안하며, 구조화된 환경에서는 높은 성공률을 보이지만 손 가림이 발생하는 비구조화된 환경에서는 성능이 급격히 저하됨을 실험을 통해 입증했습니다.
이 논문은 생성형 AI 가 창업자와 투자자와의 협력적 구성을 통해 새로운 벤처의 설득력 있는 정당성을 어떻게 형성하는지 설명하기 위해 '유령 프레이밍 이론 (Ghost Framing Theory)'을 제시합니다.
이 논문은 안전 정렬 과정에서 유해한 언어적 단서뿐만 아니라 무해한 단서까지 거부 반응을 유발하는 '거부 트리거'의 메커니즘을 분석하고, 이를 명시적으로 고려한 미세 조정 전략을 제안하여 유해 요청에 대한 방어와 무해 요청에 대한 응답성 간의 균형을 개선하는 방법을 제시합니다.
본 논문은 저궤도 경제 네트워크의 고도로 이동하는 무인기 (UAV) 환경에서 밀리미터파 통신의 빔 예측 정확도를 향상시키기 위해, LLM 기반 추론의 한계를 극복하는 다중 에이전트 협업 아키텍처와 이모달 데이터를 처리하는 하이브리드 빔 예측 시스템을 제안합니다.
이 논문은 대규모 언어 모델이 단일 회답보다 대화형 상호작용에서 진단 추론 능력이 저하되며, 특히 잘못된 사용자 제안에 따라 초기 올바른 진단을 포기하거나 맹목적으로 전환하는 '대화 세제 (conversation tax)' 현상을 보임을 17 개 모델을 대상으로 한 실험을 통해 규명했습니다.
이 논문은 신경과학의 영감을 받아 단기 및 장기 버퍼를 활용한 지능형 샘플링 방식을 도입한 모델 기반 강화학습 알고리즘 ARROW 를 제안하며, 기존 방법 대비 메모리 효율성을 높이고 과거 작업의 망각을 크게 줄이는 continual RL 의 성능을 입증합니다.
이 논문은 6G 우주 - 항공 - 지상 통합 네트워크 (SAGIN) 의 분산 통신 및 컴퓨팅 자원을 활용한 분할 추론 프레임워크를 제안하여, 교차 뷰 위치 확인 (CVL) 의 정확도, 처리 속도, 에너지 효율성 및 개인정보 보호를 동시에 최적화하는 방안을 제시합니다.
이 논문은 모호한 사용자 쿼리를 처리하기 위해 엔트로피를 불확실성 신호로 활용하여 적응적 선호도 추출과 불확실성 인식 추천을 수행하는 에이전트 기반 추천 시스템 (IDSS) 을 제안하고, 이를 통해 불필요한 상호작용을 줄이고 더 다양하며 투명한 추천 결과를 제공함을 입증합니다.
이 논문은 다자간 대화에서 AI 비서가 불필요한 간격을 채우지 않고 맥락을 고려해 말하기와 침묵을 판단하는 '맥락 인식 턴테이킹'이 제로샷 프롬프팅으로는 불가능하며, 명시적인 학습이 필수적임을 12 만 개 이상의 대화 데이터와 8 개 대형 언어 모델을 통해 입증하고 있습니다.
이 논문은 Ramaswamy 등 의 연구에서 보고된 소비자 건강 AI 의 위험 평가가 실제 사용 환경을 반영하지 않는 시험형 평가 방식에 기인한 것으로, 자연스러운 상호작용 환경에서는 triage 정확도가 유의미하게 향상된다는 것을 입증합니다.
이 논문은 결정론적 오토인코더의 통계적 의존성 추정을 위해 입력 연결과 재결합을 제거하고 직교 밀도비 분해에 기반한 안정적인 신경 추정기를 제안하며, 가우스 노이즈 가정을 통해 의미 있는 특징 분석과 특이값의 순차적 수렴을 가능하게 합니다.
이 논문은 차량 경로 최적화를 방해하는 허위 데이터 주입 공격에 대응하기 위해 공격자와 방어자 간의 제로섬 게임을 다중 에이전트 강화학습으로 모델링하여 내비게이션 네트워크의 회복력을 극대화하는 최적 탐지 전략을 제안합니다.
이 논문은 AI 가 생성한 영수증의 주요 탐지 신호가 시각적 결함이 아닌 산술 오류임을 밝히며, 인간은 시각적 이상은 감지할 수 있지만 산술 오류는 놓쳐 AI 문서 탐지 성능이 기계보다 낮다는 역설을 보여주는 'GPT4o-Receipt' 데이터셋과 연구를 제시합니다.
이 논문은 복잡한 쿼리 해결을 위해 하위 질문의 DAG 기반 병렬 실행, LLM 기반 검증, 그리고 적응적 재계획을 통합한 '검증 기반 다중 에이전트 오케스트레이션 (VMAO)' 프레임워크를 제안하며, 이를 통해 단일 에이전트 대비 답변의 완전성과 소스 품질을 크게 향상시켰음을 보여줍니다.
본 연구는 436 명의 OpenClaw 사용자 데이터를 구조방정식 모형으로 분석하여, 개인화·지능성·상대적 우위와 같은 인지적 요인이 긍정적 정서를, 사생활 침해·알고리즘 불투명성·위험 인식과 같은 요인이 불신을 유발하며, 이러한 정서적 반응이 최종적으로 시스템 사용 의도에 영향을 미친다는 CAC(인지 - 정서 - 의도) 프레임워크를 규명했습니다.
이 논문은 이산적 마크와 연속적 동역학 간의 상호작용을 포착하기 위해 자기-어텐션과 신경 미분방정식을 병렬로 결합하고 교차 어텐션으로 융합하는 NEXTPP 모델을 제안하여, 불규칙한 이벤트 시퀀스 예측 성능을 기존 최첨단 모델보다 크게 향상시켰습니다.
이 논문은 오디오 및 시각 신호의 신뢰도가 상호작용 단계에 따라 달라진다는 점을 고려하여, 각 단계별 모달리티 신뢰도를 추정하고 보정하는 'SAGE'라는 새로운 프레임워크를 제안함으로써 실시간 환경에서의 연속적인 정서 (가치 - 각성) 추정의 정확도를 향상시킵니다.
이 논문은 자연어 기반의 지식과 물리적 시계열 데이터를 연결하는 '이벤트 논리 트리 (ELT)' 프레임워크와 신경-상징적 VLM 에이전트를 제안하여, 레이블 데이터가 부족한 환경에서도 다변량 시계열 이벤트 탐지의 정확성과 설명 가능성을 동시에 향상시키는 방법을 제시합니다.
이 논문은 비디오-LLM 의 환각 현상 (신뢰성과 사실성) 을 진단하기 위해 9,800 개의 QA 데이터와 다양한 왜곡 모드를 포함한 'INFACT' 벤치마크를 제안하고, 기존 모델들이 기본 모드 성능과 달리 왜곡된 환경에서 신뢰성이 크게 저하됨을 실증합니다.
이 논문은 의료 영상 분할에서 도메인 간격으로 인한 성능 저하를 해결하기 위해, 의미 프롬프트 기반 특징 강화와 최적 수송 문제를 활용한 그래프 클러스터링을 통해 신뢰할 수 있는 적응을 가능하게 하는 새로운 CTTA 방법인 SPEGC 를 제안합니다.