Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Deze paper introduceert een unificerend raamwerk dat kwantisatie en verduidelijking als additief ruis modelleert en een afgeleid denoising-dekwantisatietransform toepast om stabiele training van neurale netwerken op willekeurige precisie- en sparsiteitsniveaus mogelijk te maken, waardoor state-of-the-art resultaten worden behaald in ultra-lage precisie-regimes zoals A1W1.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

Let's Verify Math Questions Step by Step

Dit paper introduceert MathQ-Verify, een nieuw vijfstapsproces dat zorgvuldig slecht gestelde wiskundeproblemen filtert door syntactische validatie, formalisering, logicacontrole en volledigheidstests, waardoor de kwaliteit van wiskundedatasets aanzienlijk verbetert en de F1-score tot 25 procentpunten stijgt ten opzichte van bestaande methoden.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao ZhangWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

Dit paper introduceert UltraEdit, een trainings-, onderwerp- en geheugenloze methode voor het levenslang bijwerken van taalmodellen die aanzienlijk sneller en minder geheugenintensief is dan bestaande technieken, waardoor het zelfs op consumentenhardware mogelijk wordt om miljoenen bewerkingen uit te voeren zonder bestaande vaardigheden te verliezen.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

TaoSR1 is een nieuw raamwerk dat Large Language Models direct inzetbaar maakt voor e-commerce relevantiezearch door een drie-staps training te gebruiken die redeneervermogen installeert, hallucinaties tegengaat en efficiënte online implementatie mogelijk maakt, wat leidt tot aanzienlijk betere prestaties dan bestaande methoden.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

Deze paper introduceert AgentCoMa, een nieuw benchmark voor het testen van LLM's op gecombineerd gezond verstand en wiskundig redeneren in realistische scenario's, waarbij blijkt dat modellen bij gemengde taken aanzienlijk slechter presteren dan bij afzonderlijke stappen, ondanks dat mensen dit probleem niet ervaren.

Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek ReiWed, 11 Ma💬 cs.CL