Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

Este artigo apresenta o \tool{}, um framework automatizado que explora a "Programação Orientada a Raciocínio" para burlar os mecanismos de segurança de Modelos de Linguagem e Visão (LVLMs), combinando entradas visuais benignas e ortogonais que só geram lógica maliciosa durante o processo de raciocínio tardio, superando assim as defesas atuais focadas em padrões explícitos.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang2026-03-11💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

O artigo apresenta o RF-Mem, um recuperador de memória adaptativo que personaliza modelos de linguagem simulando o processo cognitivo humano ao alternar dinamicamente entre busca por familiaridade e reconstrução deliberada por recordação, superando assim as limitações de métodos existentes em termos de precisão e escalabilidade.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu Zhao2026-03-11💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Este artigo apresenta o "Platooning as a Service" (PlaaS), uma estrutura de suporte à decisão baseada em um jogo de Stackelberg que otimiza a interação entre provedores e usuários de veículos autônomos conectados, demonstrando como políticas de preços e subsídios governamentais podem maximizar lucros e reduzir emissões de carbono, especialmente em operações de alta velocidade e urgência.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand Abrahamb2026-03-11💻 cs

Multimodal Graph Representation Learning with Dynamic Information Pathways

O artigo propõe o framework DiP, uma nova abordagem para aprendizado de representação em grafos multimodais que utiliza nós pseudo-específicos e caminhos de informação dinâmicos para alcançar propagação de mensagens adaptativa, expressiva e esparsa com complexidade linear, superando métodos existentes em tarefas como previsão de links e classificação de nós.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Este artigo apresenta um novo quadro de trabalho para navegação visão-linguagem que utiliza vídeos de tours de ambientes reais da web e representações geométricas implícitas para superar as limitações de escalabilidade e diversidade dos simuladores, estabelecendo novos recordes de desempenho e permitindo agentes de navegação zero-shot mais robustos.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

On the Online Weighted Non-Crossing Matching Problem

Este artigo investiga o problema de emparelhamento não cruzado online ponderado no plano euclidiano, demonstrando que algoritmos determinísticos não garantem uma razão competitiva não trivial, enquanto algoritmos aleatorizados alcançam uma razão constante, além de estabelecer limites para variantes com revocabilidade, pontos colineares e complexidade de aconselhamento.

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis Pankratov2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

O artigo apresenta o ForgeDreamer, um novo framework que supera as limitações atuais na geração de modelos 3D industriais a partir de texto ao combinar um mecanismo de ensemble Multi-Expert LoRA para evitar interferência de conhecimento entre categorias e uma abordagem de hipergrafo multivista para capturar dependências estruturais de alta ordem essenciais para a precisão na manufatura.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Entangling Like Mycorrhizae: Mixing Realities Through Touch in "FungiSync"

O artigo apresenta o "FungiSync", uma experiência de realidade mista que traduz a interdependência das redes micorrízicas em um ritual participativo onde o toque físico entre os participantes entrelaça suas percepções digitais individuais, promovendo uma epistemologia fúngica que desafia o individualismo acelerado da era pós-humana.

Botao Amber Hu, Danlin Huang, Yilan Elan Tao, Xiaobo Aaron Hu, Rem RunGu Lin2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

O artigo apresenta o SVOR, um novo framework robusto que supera os desafios de remoção de objetos em vídeos sob condições imperfeitas, como sombras e máscaras defeituosas, através de três inovações principais: a estratégia MUSE para fusão de máscaras, o cabeçote de segmentação DA-Seg e um treinamento em duas etapas com currículo, alcançando resultados state-of-the-art e viabilizando aplicações no mundo real.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

O artigo apresenta o CogBlender, um framework inovador que permite a intervenção contínua e multidimensional de propriedades cognitivas (como valência, excitação, domínio e memorabilidade) na geração de imagens a partir de texto, alinhando a criação visual a intenções psicológicas específicas através da reformulação do campo de velocidade no processo de correspondência de fluxo.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

O artigo apresenta o ToolRosetta, um quadro unificado que automatiza a tradução de repositórios de código de código aberto em ferramentas compatíveis com o Protocolo de Contexto de Modelo (MCP), permitindo que agentes de modelos de linguagem de grande escala executem tarefas complexas com intervenção humana mínima e garantias de segurança.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui2026-03-11💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

O artigo apresenta o SPR (See, Plan, Rewind), um modelo de visão-linguagem-ação que melhora a manipulação robótica ao monitorar o progresso do tarefa através de marcos espaciais, permitindo o planejamento de trajetórias e a recuperação automática de falhas, o que resulta em maior robustez e generalização em benchmarks desafiadores.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs