cs artículos | Gist.Science

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

El artículo presenta 3DMedAgent, un agente unificado que habilita a modelos de lenguaje multimodal 2D para realizar análisis médicos 3D mediante la descomposición progresiva de tareas complejas y el uso de una memoria estructurada, superando así las limitaciones de los enfoques existentes y logrando un rendimiento superior en más de 40 tareas de análisis de tomografía computarizada.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

El artículo presenta OVerSeeC, un marco modular de cero disparos que combina modelos de lenguaje y segmentación de visión abierta para generar mapas de costos globales adaptativos a misiones a partir de imágenes satelitales y descripciones en lenguaje natural, permitiendo la planificación de rutas para entidades y reglas desconocidas sin ontologías predefinidas.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

On the Energy Cost of Post-Quantum Key Establishment in Wireless Low-Power Personal Area Networks

Este artículo demuestra que, en redes de área personal de baja potencia, el costo energético de la comunicación durante el establecimiento de claves post-cuánticas a menudo supera al de la computación, lo que exige una optimización coordinada de protocolos y capas inferiores para lograr una operación cuánticamente segura eficiente.

Tao Liu, Gowri Ramachandra, Raja Jurdak2026-03-10💻 cs

ABD: Default Exception Abduction in Finite First Order Worlds

Este artículo presenta ABD, un benchmark para la abducción de excepciones por defecto en mundos finitos de primer orden, que evalúa la capacidad de los modelos de lenguaje para generar fórmulas que restauran la satisfacibilidad manteniendo la parsimonia, revelando mediante verificación SMT y pruebas en diez modelos avanzados brechas significativas en la generalización y la economía de las excepciones.

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Este artículo introduce el nuevo paradigma de generalización de dominio de vocabulario abierto en segmentación semántica (OVDG-SS) para entornos urbanos, presentando un primer benchmark y proponiendo el mecanismo S2-Corr para mitigar las distorsiones en las correlaciones texto-imagen causadas por cambios de dominio y mejorar la robustez en escenarios no vistos.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

El artículo presenta INDUCTION, un nuevo benchmark en lógica de primer orden diseñado para evaluar la capacidad de los modelos para sintetizar conceptos a partir de estructuras finitas, revelando gradientes de dificultad, familias estructurales persistentemente complejas y una correlación positiva entre la concisión de las fórmulas y su capacidad de generalización.

Serafim Batzoglou2026-03-10💻 cs

SKYLIGHT: A Scalable Hundred-Channel 3D Photonic In-Memory Tensor Core Architecture for Real-time AI Inference

Este artículo presenta SKYLIGHT, una arquitectura escalable de núcleo tensorial fotónico en memoria de 3D con cien canales que supera las limitaciones de escalabilidad y fiabilidad existentes para lograr una inferencia de IA en tiempo real altamente eficiente energéticamente, capaz de realizar actualizaciones de pesos in situ y superar el rendimiento por vatio de las GPU más avanzadas.

Meng Zhang, Ziang Yin, Nicholas Gangi, Alexander Chen, Brett Bamfo, Tianle Xu, Jiaqi Gu, Zhaoran Rena Huang2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

El artículo presenta UniMatch, un marco de aprendizaje profundo que establece correspondencias densas semánticas entre formas 3D no isométricas de diferentes categorías mediante un enfoque de dos etapas que combina segmentación semántica agnóstica a la clase, orientación mediante modelos de lenguaje multimodal y un esquema de aprendizaje contrastivo basado en rangos.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

Why iCloud Fails: The Category Mistake of Cloud Synchronization

El documento argumenta que iCloud falla al integrar herramientas de desarrollo y copias de seguridad debido a un error categórico fundamental: proyectar un grafo causal distribuido sobre una cadena temporal lineal bajo suposiciones de "solo hacia adelante en el tiempo", un problema estructural que, al igual que el parpadeo de enlaces en redes, provoca un colapso epistémico que solo puede resolverse mediante semánticas transaccionales como las de Open Atomic Ethernet, las cuales alinean el comportamiento del protocolo con la realidad física.

Paul Borrill2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

InfScene-SR es un enfoque de superresolución basado en difusión que utiliza la fusión de corrección de varianza y la corrección de varianza desacoplada espacialmente para lograr una superresolución de imágenes de tamaño arbitrario sin costuras ni inconsistencias espaciales, eliminando así los límites de memoria y permitiendo inferencia distribuida eficiente.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Este artículo propone un esquema de descomposición y recomposición en línea de objetos, escenas y cámaras para generar datos de entrenamiento sintéticos diversos y eficientes, mejorando así la detección 3D de objetos monocular con menos datos y anotaciones.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Este trabajo presenta un marco de descomposición de imágenes en contexto que utiliza modelos de difusión preentrenados adaptados mediante LoRA y una estrategia de ajuste cíclico para separar eficazmente logotipos de sus superficies subyacentes, mejorando la robustez mediante la consistencia de reconstrucción y un proceso progresivo de auto-mejora.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Este trabajo presenta un marco iterativo y sin entrenamiento que mejora el razonamiento multimodal en modelos de visión y lenguaje grandes mediante la supervisión de cada paso de razonamiento con evidencia visual dinámica, reduciendo así las alucinaciones y aumentando la precisión sin necesidad de reentrenamiento.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

El artículo presenta ARLArena, un marco unificado para analizar la estabilidad en el aprendizaje por refuerzo agéntico (ARL), y propone SAMPO, un método de optimización que garantiza un entrenamiento estable y de alto rendimiento en diversas tareas.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

Este artículo presenta un enfoque unificado para la segmentación semántica en imágenes y videos que utiliza modelado de lenguaje para generar máscaras como secuencias de tokens discretos mediante codificación de longitudes de ejecución (RLE), incorporando estrategias de compresión y detalles de instancias para lograr resultados competitivos con el estado del arte.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

EmoOmni: Bridging Emotional Understanding and Expression in Omni-Modal LLMs

El artículo presenta EmoOmni, un marco unificado que mejora la comprensión y expresión emocional en modelos de lenguaje multimodales mediante la introducción de una Cadena de Pensamiento Emocional (E-CoT), junto con un conjunto de datos anotados y una nueva evaluación para abordar las limitaciones actuales en escenarios del mundo real.

Wenjie Tian, Zhixian Zhao, Jingbin Hu, Huakang Chen, Haohe Liu, Binshen Mu, Lei Xie2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

CryoNet.Refine es un modelo de difusión de un solo paso que automatiza y acelera el refinamiento de estructuras moleculares a partir de mapas de densidad de criomicroscopía electrónica, superando en velocidad y precisión a los métodos tradicionales como Phenix y Rosetta.

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Este artículo introduce el concepto de "investigación de ambiente" (vibe researching) mediante agentes de IA equipados con habilidades especializadas, argumentando que, aunque estos sistemas pueden automatizar gran parte del proceso investigativo, su delegación óptima depende de una frontera cognitiva basada en la codificabilidad y el conocimiento tácito, lo que plantea riesgos de estratificación y una crisis pedagógica que requieren principios de uso responsable.

Yongjun Zhang2026-03-10💻 cs

Decomposing Physician Disagreement in HealthBench

El estudio descompone la discrepancia entre médicos en la evaluación de IA médica, revelando que la mayor parte de la varianza es estructural y no explicada por factores observables, aunque la incertidumbre reducible (como la falta de contexto) duplica las probabilidades de desacuerdo, lo que sugiere que mejorar el diseño de las evaluaciones para cerrar brechas de información podría reducir el conflicto en casos no inherentemente ambiguos.

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

WISER es un marco de recuperación de imágenes compuestas sin entrenamiento que supera las limitaciones de los métodos existentes mediante una búsqueda más amplia, un pensamiento más profundo y una fusión adaptativa que unifica las búsquedas basadas en texto e imagen para lograr un rendimiento superior en diversos escenarios.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

← Anterior Siguiente →