RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap is een nieuw reinforcement learning-framework dat de uitdagingen van dichte beeldbeschrijving oplost door gebruik te maken van door LLM's geschreven rubrieken voor gestructureerde, veelzijdige beloningssignalen, waardoor het superieure resultaten bereikt ten opzichte van bestaande methoden en zelfs modellen die zijn getraind op data van propriëtaire modellen.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

DuplexCascade is een VAD-vrije, gestreamde spraak-naar-spraak pipeline die volledige duplex-interactie mogelijk maakt door conventionele lange wisselgesprekken om te zetten in micro-turns met behulp van speciale controletokens, waardoor de intelligentie van een tekst-LLM behouden blijft terwijl de onderbrekingsproblemen van traditionele systemen worden opgelost.

Jianing Yang, Yusuke Fujita, Yui SudoWed, 11 Ma🤖 cs.AI

Abundant Intelligence and Deficient Demand: A Macro-Financial Stress Test of Rapid AI Adoption

Dit artikel presenteert een macro-financiële stresstest die aantoont dat snelle AI-adaptatie leidt tot een distributie- en contractprobleem waarbij overvloedige productie samengaat met vraagtekorten, omdat economische instituties vastzitten aan menselijke schaarste, wat een zelfversterkende cyclus van inkomensdaling, afnemende geldomloopsnelheid en instorting van intermediaire marges kan veroorzaken.

Xupeng ChenWed, 11 Ma🤖 cs.AI

PrivPRISM: Automatically Detecting Discrepancies Between Google Play Data Safety Declarations and Developer Privacy Policies

Dit paper introduceert PrivPRISM, een automatisch framework dat ontdekt dat bijna de helft van de populaire apps op Google Play discrepanties vertonen tussen hun vereenvoudigde gegevensveiligheidsverklaringen en hun volledige privacybeleid, wat wijst op systemische misleiding en onvoldoende transparantie over datapraktijken.

Bhanuka Silva, Dishanika Denipitiyage, Anirban Mahanti, Aruna Seneviratne, Suranga SeneviratneWed, 11 Ma🤖 cs.AI

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Dit artikel introduceert een schaalbaar simulatiekader dat een volledig gespierd menselijk model combineert met reinforcement learning om interactieve robotica kwantitatief te analyseren en te co-optimiseren, waardoor interne biomechanische metrics zoals spierkrachten direct toegankelijk worden voor het ontwerp van systemen zoals exoskeletten.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

In dit paper stellen de auteurs BridgeDiff voor, een diffusion-gebaseerd framework dat de kloof tussen menselijke waarnemingen en platte kledingreconstructie overbrugt door middel van een kledingvoorwaarde-module en een platte-structuurbeperking-module om state-of-the-art virtuele pasvormresultaten te bereiken.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Dit onderzoek presenteert een veelzijdige aanpak voor autonoom rijden die gebruikmaakt van diep learning en computer vision voor taken zoals verkeersbord- en voertuigdetectie, rijstrookherkenning en gedragskloon, met als doel de robuustheid en betrouwbaarheid van zelfrijdende systemen te verbeteren.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI