CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

O artigo apresenta o CogBlender, um framework inovador que permite a intervenção contínua e multidimensional de propriedades cognitivas (como valência, excitação, domínio e memorabilidade) na geração de imagens a partir de texto, alinhando a criação visual a intenções psicológicas específicas através da reformulação do campo de velocidade no processo de correspondência de fluxo.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan CaoWed, 11 Ma💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

O artigo apresenta o ToolRosetta, um quadro unificado que automatiza a tradução de repositórios de código de código aberto em ferramentas compatíveis com o Protocolo de Contexto de Modelo (MCP), permitindo que agentes de modelos de linguagem de grande escala executem tarefas complexas com intervenção humana mínima e garantias de segurança.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong RuiWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

O artigo apresenta o SPR (See, Plan, Rewind), um modelo de visão-linguagem-ação que melhora a manipulação robótica ao monitorar o progresso do tarefa através de marcos espaciais, permitindo o planejamento de trajetórias e a recuperação automática de falhas, o que resulta em maior robustez e generalização em benchmarks desafiadores.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

Paralinguistic Emotion-Aware Validation Timing Detection in Japanese Empathetic Spoken Dialogue

Este estudo propõe um modelo que detecta o momento adequado para validação emocional em diálogos falados em japonês utilizando apenas pistas paralinguísticas e emocionais, sem depender do contexto textual, demonstrando melhorias significativas em relação a métodos convencionais e abrindo caminho para interações humano-robô mais empáticas.

Zi Haur Pang, Yahui Fu, Yuan Gao, Tatsuya KawaharaWed, 11 Ma💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

O artigo apresenta o IntroSVG, um framework que utiliza um modelo de linguagem visual unificado atuando como gerador e crítico em um ciclo fechado de "gerar-revisar-refinar", aprimorado por ajuste fino supervisionado e otimização direta de preferências, para superar as limitações dos métodos atuais de geração de SVGs a partir de texto ao incorporar feedback visual explícito.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu GaoWed, 11 Ma💻 cs

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

O artigo apresenta o NLiPsCalib, um framework de calibração eficiente e consistente com a física que utiliza estereoscopia fotométrica de luz próxima (NLiPs) e fontes de luz controláveis para permitir a reconstrução 3D de alta fidelidade em sensores visuotáteis curvos, simplificando o processo para poucos contatos com objetos cotidianos e reduzindo a barreira de entrada para o desenvolvimento de sensores personalizados.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

O artigo apresenta o OddGridBench, um benchmark controlado que revela a baixa sensibilidade dos Modelos de Linguagem Multimodal (MLLMs) a discrepâncias visuais finas, e propõe o OddGrid-GRPO, um framework de aprendizado por reforço que melhora significativamente essa capacidade através de aprendizado curricular e recompensas sensíveis à distância espacial.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong MingWed, 11 Ma💻 cs

ProvAgent: Threat Detection Based on Identity-Behavior Binding and Multi-Agent Collaborative Attack Investigation

O artigo apresenta o ProvAgent, um framework que supera as limitações da colaboração humano-modelo na detecção de Ameaças Persistentes Avançadas (APTs) ao integrar modelos tradicionais de triagem, aprendizado de contraste em grafos para vinculação identidade-comportamento e uma investigação autônoma colaborativa entre múltiplos agentes, resultando em detecção superior e reconstrução de ataques com baixo custo.

Wenhao Yan, Ning An, Linxu Li, Bingsheng Bi, Bo Jiang, Zhigang Lu, Baoxu Liu, Junrong Liu, Cong DongWed, 11 Ma💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

O artigo propõe o EPPINN, um novo framework de redes neurais informadas por física que integra aprendizado evidencial para quantificar incertezas e melhorar a precisão e confiabilidade da estimativa de parâmetros de perfusão em imagens de tomografia computadorizada para avaliação de AVC isquêmico agudo.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung ChoiWed, 11 Ma💻 cs

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

O artigo apresenta o SinGeo, um framework inovador que utiliza aprendizado discriminativo dual e uma estratégia de aprendizado curricular para permitir que um único modelo realize geo-localização cruzada robusta em diversas condições de campo de visão, superando os métodos existentes e estabelecendo novos padrões de desempenho em benchmarks.

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao WuWed, 11 Ma💻 cs