Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: Characterization and Learning

Este trabalho apresenta a primeira caracterização de equivalência distribucional e um método de aprendizado estruturalmente livre para modelos causais lineares não-Gaussianos com variáveis latentes e ciclos, estabelecendo critérios gráficos e um algoritmo para recuperar modelos a partir de dados sem assumir restrições estruturais prévias.

Haoyue Dai, Immanuel Albrecht, Peter Spirtes + 1 more2026-03-06💻 cs

Diffusion Policy through Conditional Proximal Policy Optimization

Este artigo propõe o Diffusion Policy through Conditional Proximal Policy Optimization, um método eficiente que permite o treinamento de políticas de difusão em cenários de aprendizado por reforço on-policy ao alinhar a iteração da política com o processo de difusão, eliminando a necessidade de cálculos complexos de verossimilhança e permitindo a regularização por entropia, resultando em desempenho superior em diversas tarefas de robótica.

Ben Liu, Shunpeng Yang, Hua Chen2026-03-06💻 cs

The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization

Este artigo demonstra que a localidade e o compartilhamento de pesos em redes neurais convolucionais alteram fundamentalmente a regularização implícita, permitindo a generalização em dados esféricos de alta dimensão onde redes totalmente conectadas falham, ao acoplar os filtros aprendidos a uma variedade de patches de baixa dimensão.

Tongtong Liang, Esha Singh, Rahul Parhi + 2 more2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Este artigo apresenta a solução "WhisperAlign" para o DL Sprint 4.0, que combina uma estratégia de fragmentação de áudio baseada em WhisperX para reconhecimento de fala e um modelo de diarização de fala ajustado especificamente para o dataset da competição, resultando em reduções significativas nas taxas de erro para transcrição e identificação de falantes em longas gravações de áudio em bengali.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Quadratic polarity and polar Fenchel-Young divergences from the canonical Legendre polarity

Este artigo estabelece uma conexão entre polaridade quadrática e divergências de Fenchel-Young polares, demonstrando que transformações de Legendre-Fenchel podem ser manipuladas via álgebra linear em coordenadas homogêneas e revelando uma nova dualidade de referência na geometria da informação através da generalização de divergências de Bregman.

Frank Nielsen, Basile Plus-Gourdon, Mahito Sugiyama2026-03-06💻 cs

On the Strengths and Weaknesses of Data for Open-set Embodied Assistance

Este artigo investiga as capacidades de generalização de modelos fundacionais corporativos para assistência corretiva em conjunto aberto, demonstrando através de dados sintéticos no Overcooked que o desempenho ideal requer conjuntos de dados diversificados que abranjam fundamentação multimodal, inferência de defeitos e exposição a cenários variados.

Pradyumna Tambwekar, Andrew Silva, Deepak Gopinath + 3 more2026-03-06🤖 cs.AI

Osmosis Distillation: Model Hijacking with the Fewest Samples

O artigo apresenta o ataque de "Osmosis Distillation", uma nova estratégia de sequestro de modelo que demonstra como um adversário pode comprometer modelos de aprendizado por transferência usando apenas algumas amostras envenenadas em conjuntos de dados sintetizados por destilação, mantendo ao mesmo tempo a utilidade do modelo nas tarefas originais.

Yuchen Shi, Huajie Chen, Heng Xu, Zhiquan Liu, Jialiang Shen, Chi Liu, Shuai Zhou, Tianqing Zhu, Wanlei Zhou2026-03-06🔒 cs.CR

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Este estudo apresenta um modelo interpretável que alcança 80,4% de precisão na antecipação de oito tipos de arremessos de beisebol a partir de sequências de pose 3D em broadcast, revelando que a mecânica do tronco e do pulso são os principais preditores e estabelecendo um limite empírico de aproximadamente 80% para a distinção de variantes baseadas apenas no movimento corporal.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

How Does the ReLU Activation Affect the Implicit Bias of Gradient Descent on High-dimensional Neural Network Regression?

Este artigo demonstra que, para dados aleatórios de alta dimensão, o viés implícito do gradiente descendente no treinamento de modelos ReLU rasos aproxima-se com alta probabilidade da solução de norma L2 mínima, com um desvio na ordem de Θ(n/d)\Theta(\sqrt{n/d}), através de uma nova análise primal-dual que rastreia a estabilização dos padrões de ativação ReLU.

Kuo-Wei Lai, Guanghui Wang, Molei Tao + 1 more2026-03-06🔢 math