TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

El artículo presenta TIDE, un método sin entrenamiento que mejora la extrapolación de resolución en los Transformadores de Difusión (DiT) mediante un mecanismo de anclaje de texto y un control dinámico de temperatura, logrando así generar imágenes de alta calidad en resoluciones y proporciones arbitrarias sin degradación estructural ni sobrecarga de muestreo.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming ZhangWed, 11 Ma💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Este estudio presenta un nuevo enfoque que utiliza modelos fundacionales de visión y lenguaje (Gemma 3 y Qwen3-VL) para generar configuraciones JSON de simulaciones de plantas a partir de imágenes de drones, demostrando su potencial para escalar la creación de gemelos digitales agrícolas mediante aprendizaje en contexto, aunque también revela limitaciones en la precisión de los parámetros biofísicos cuando faltan pistas visuales claras.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

El artículo presenta PathoScribe, un marco unificado impulsado por modelos de lenguaje grandes que transforma los archivos de patología estáticos en una biblioteca viva y razonable, permitiendo la recuperación semántica, la construcción automatizada de cohortes y la integración clínica con una precisión y eficiencia significativamente superiores a los métodos tradicionales.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

El artículo presenta SVG-EAR, un método libre de parámetros que mejora la generación de video dispersa mediante una compensación lineal basada en centroides y un enrutamiento consciente del error, logrando aceleraciones de hasta 1.93× sin sacrificar la calidad de la generación.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin CheungWed, 11 Ma💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

El artículo presenta SurgCalib, un marco de calibración mano-ojo automático y sin marcadores para el robot quirúrgico da Vinci que utiliza la representación por Splatting Gaussiano para refinar la estimación de la pose del instrumento quirúrgico, superando las limitaciones de las mediciones cinemáticas imprecisas y evitando la necesidad de patrones fiduciales que comprometan la esterilidad.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. SalcudeanWed, 11 Ma💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

El artículo propone Normalized Flow Matching (NFM), un método que mejora el entrenamiento de modelos generadores de flujo mediante la destilación de acoplamientos adaptativos de modelos de flujo normalizado preentrenados, logrando un rendimiento superior tanto a los flujos entrenados con acoplamientos independientes u óptimos como al propio modelo docente.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

El artículo presenta WS-Net, un marco de desmezcla hiperespectral basado en aprendizaje profundo que combina modelado de espacio de estados y atención a señales débiles para mejorar significativamente la estimación de abundancia de endmemberes de baja intensidad en condiciones de ruido y señales dominantes.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Este artículo presenta un marco para la generación de videos físicamente plausibles que aborda la progresión causal mediante dos módulos clave: el razonamiento de cadenas de eventos impulsado por la física y la instrucción cruzada multimodal consciente de las transiciones, logrando así una superioridad en benchmarks como PhyGenBench y VideoPhy.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie LeiWed, 11 Ma💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Este estudio diagnostica sistemáticamente la brecha de rendimiento entre el texto y las imágenes en modelos multimodales, identificando que las imágenes de texto amplifican errores de lectura y cálculo, y propone un método de auto-distilación que utiliza trazas de razonamiento en texto puro para cerrar esta brecha y mejorar significativamente la precisión en tareas visuales.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

El artículo presenta MedKCO, un método de preentrenamiento visión-idioma médico que supera las limitaciones cognitivas actuales mediante una orquestación basada en el conocimiento que organiza los datos en un currículo de dos niveles y utiliza una pérdida de contraste asimétrica auto-pasiva para mejorar las representaciones de características y el rendimiento en tareas posteriores.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi ZhouWed, 11 Ma💻 cs

Training-free Motion Factorization for Compositional Video Generation

Este trabajo propone un marco de factorización de movimiento sin entrenamiento que descompone la generación de video composicional en tres categorías (inmovilidad, movimiento rígido y no rígido) mediante un enfoque de planificación previa a la generación, permitiendo la síntesis de múltiples instancias con apariencia y movimiento diversos de manera agnóstica al modelo.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie LeiWed, 11 Ma💻 cs