A Text-Native Interface for Generative Video Authoring
이 논문은 텍스트 작성을 주된 상호작용으로 하여 영상 제작의 진입 장벽을 낮추고 시각적 스토리텔링을 혁신하는 새로운 생성형 비디오 저작 인터페이스 'Doki'를 제안하고, 다양한 전문성을 가진 사용자를 대상으로 한 배포 연구를 통해 그 유효성을 입증합니다.
5115 편의 논문
이 논문은 텍스트 작성을 주된 상호작용으로 하여 영상 제작의 진입 장벽을 낮추고 시각적 스토리텔링을 혁신하는 새로운 생성형 비디오 저작 인터페이스 'Doki'를 제안하고, 다양한 전문성을 가진 사용자를 대상으로 한 배포 연구를 통해 그 유효성을 입증합니다.
이 논문은 고정된 밀도 깊이와 의미론적 패치 특징을 3D 가우시안 원시 객체로 변환하는 가우시안 공간 토크나이저 (GST) 와 3D 깊이 인식 체인 오브 씽킹 (DA-CoT) 추론을 도입하여 LIBERO 와 SimplerEnv 환경에서 기존 VLA 모델보다 뛰어난 정밀도와 성능을 달성한 GST-VLA 를 제안합니다.
이 논문은 2007 년부터 2024 년까지의 데이터에 기반하여, Qwen3 모델로 미세 조정된 LLM 을 활용해 뉴스 감성을 추출하고 이를 기존 표형 데이터와 결합한 LSTM 모델이 시장 변동성이 높은 기간에 알루미늄 가격 예측 및 투자 수익률 (샤프 지수 1.04) 을 기존 모델보다 크게 향상시킨다는 것을 입증했습니다.
이 논문은 자동주행을 위한 잠재적 세계 모델에 대한 통합 분류법과 평가 체계를 제시하고, 구조적 동형성 및 장기적 안정성 등 다섯 가지 핵심 메커니즘을 분석하여 검증 가능하고 자원 효율적인 의사결정 시스템으로의 발전 방향을 제시합니다.
이 논문은 피부암 진단을 지원하기 위해 참조 이미지와 텍스트 설명을 결합한 복합 질의에 대해 전역 및 지역적 특징을 정렬하는 트랜스포머 기반 프레임워크를 제안하고, Derm7pt 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.
이 논문은 대규모 언어 모델 (LLM) 을 구조화된 의미 교사로서 활용하여 사전 학습된 후 제거함으로써, 적은 데이터로 높은 성능을 내면서도 임상 환경에 배포 가능한 경량 의료 비전 트랜스포머 (ViT) 인 'VIVID-Med'프레임워크를 제안합니다.
이 논문은 기능적 건물 내의 높은 유사성으로 인한 기존 언어 기반 내비게이션의 한계를 극복하기 위해, 사전 지도를 활용한 의미적 사전 지도 생성, 계층적 사고 체인 프롬프트, 그리고 다중 모델 협업 메커니즘을 도입한 'PM-Nav'를 제안하고 시뮬레이션 및 실세계 환경에서 기존 방법 대비 획기적인 성능 향상을 입증합니다.
이 논문은 다관절 손의 복잡한 제어를 위한 비전 - 언어 - 행동 (VLA) 모델의 사후 훈련을 위해 인간 개입을 통합한 최초의 프레임워크인 'DexHiL'을 제안하며, 실시간 교정 및 데이터 샘플링 전략을 통해 기존 오프라인 미세 조정 대비 평균 25% 높은 성공률을 달성함을 보여줍니다.
이 논문은 비균일한 열화 조건에서 고해상도 이미지를 복원하기 위해 불확실성 기반의 적응형 노이즈 생성 모듈과 멀티모달 대형 언어 모델을 활용한 품질 인식 사전 지식을 통합한 'QUSR'이라는 새로운 확산 기반 초해상도 모델을 제안합니다.
이 논문은 다중 LLM 심의 시스템이 반복 실행 시에도 역할 구분과 모델 이질성으로 인해 결정론적이라 기대되는 환경에서도 카오스적 불안정성을 보일 수 있음을 실증적으로 규명하고, 이를 위해 안정성 감사를 핵심 설계 요구사항으로 제시합니다.
이 논문은 클래스 증분 학습에서 기존 특징과 새 특징 간의 충돌을 완화하기 위해, 인과적 관점에서 필요충분조건 확률 (PNS) 을 기반으로 한 정규화 방법과 이중 범위 반사실 생성기를 제안하여 특징의 인과적 완전성과 분리성을 동시에 보장하는 접근법을 제시합니다.
이 논문은 계층적이고 비정형적인 테이블 데이터에 대한 복잡한 장기 추론 과제를 해결하기 위해, 쿼리 이해와 실행을 결합한 폐루프 의사결정 프레임워크와 시아네스 구조의 기억 메커니즘을 통해 전략적 계획과 실행을 분리한 새로운 에이전트 접근법인 'Deep Tabular Research (DTR)'를 제안합니다.
이 논문은 기존 대규모 언어 모델의 한계를 극복하고 복잡한 테이블 질의응답의 정확성을 획기적으로 향상시키기 위해, 데이터 리더와 전문 에이전트 팀 간의 협업 및 자동화된 지식 그래프 변환을 가능하게 하는 'DataFactory'라는 다중 에이전트 프레임워크를 제안합니다.
이 논문은 에이전트 실행 전 실시간으로 안전성을 검증하여 유해한 행동을 87% 감소시키고, 도메인별 플러그인을 통해 일반 검증보다 35% 더 높은 해악 감소 효과를 달성하는 'TrustBench'라는 이중 모드 프레임워크를 제안합니다.
RubiCap 는 LLM 이 작성한 평가 기준 (rubric) 에서 파생된 세분화된 보상 신호를 활용하여 강화 학습을 통해 기존 감독 학습 및 이전 RL 방법보다 우수한 성능과 다양성을 보이는 밀도 이미지 캡셔닝 프레임워크를 제안합니다.
이 논문은 기능적 오류가 있더라도 LLM 이 생성한 RTL 에서 추출된 합성 네틀리스트가 의도된 기능의 구조적 패턴을 보존한다는 통찰을 바탕으로, 레이블이 부족한 회로 설계 분야에서 고품질 데이터의 병목 현상을 해결하고 실제 회로에 일반화되는 효과적인 네틀리스트 표현 학습 프레임워크를 제안합니다.
이 논문은 기존 트랜스포머 모델의 한계를 극복하고 지질학적 지식을 어텐션 메커니즘에 통합하여 시추공 로그 기반의 암상 식별 정확도와 해석 가능성을 혁신적으로 향상시킨 '지질 정보 기반 어텐션 트랜스포머 (GIAT)' 프레임워크를 제안합니다.
이 논문은 대규모 로봇 원격 조종 데이터 없이도 인간 1 인칭 시점 비디오만으로 자연스러운 전신 인간형 로봇 제어를 가능하게 하는 'ZeroWBC' 프레임워크를 제안하고, 이를 통해 인간형 로봇의 자연스러운 행동과 다용도성을 크게 향상시켰음을 보여줍니다.
이 논문은 LLM 기반 코드 변이 에이전트인 'AlphaEvolve'를 활용하여 5 가지 고전적 램지 수의 하한을 개선하고, 기존에 알려진 모든 정확한 램지 수 하한을 재발견하며 다양한 경우에 최선의 하한을 달성했다는 점을 제시합니다.
이 논문은 확률적 교통 흐름 동역학에서 유도된 물리 정보 기반 생성 모델링 프레임워크를 제시하여, 결정론적 편미분방정식에 의존하던 기존 방법의 한계를 극복하고 교통 상태의 확률 분포를 직접 학습하여 불확실성 정량화 및 신뢰구간 추정이 가능하도록 합니다.