UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations

이 논문은 다양한 로봇 형태에 맞춰 인간 시연의 모방을 넘어 적응적 탐색을 가능하게 하는 통합 강화학습 프레임워크 'UniBYD'와 이를 평가하기 위한 새로운 벤치마크 'UniManip'을 제안하여, 기존 최첨단 방법 대비 성공률을 44.08% 향상시켰음을 보여줍니다.

Tingyu Yuan, Biaoliang Guan, Wen Ye, Ziyan Tian, Yi Yang, Weijie Zhou, Zhaowen Li, Yan Huang, Peng Wang, Chaoyang Zhao, Jinqiao WangWed, 11 Ma💻 cs

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

이 논문은 인간 선호도 기반 강화학습을 통한 텍스트-이미지 생성 모델의 '선호도 모드 붕괴 (Preference Mode Collapse)' 현상을 규명하고, 이를 해결하기 위해 보상 신호를 방향적으로 보정하여 생성 다양성을 유지하는 새로운 프레임워크인 '방향성 분해 정렬 (D²-Align)'을 제안합니다.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu LiWed, 11 Ma💻 cs

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

본 논문은 정적 분석과 LLM 기반 추론을 결합한 모듈형 프레임워크인 Preguss 를 통해 대규모 프로그램의 잠재적 런타임 오류를 기반으로 인터프로시저 명세를 자동 생성 및 정제함으로써, 기존 LLM 기반 접근법보다 우수한 확장성을 보이며 수천 줄 규모의 프로그램에 대한 검증 노력을 80.6%~88.9% 감소시킨다고 제안합니다.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

CovertComBench: A First Domain-Specific Testbed for LLMs in Wireless Covert Communication

이 논문은 무선 은폐 통신 (Covert Communication) 의 엄격한 보안 제약 조건 하에서 LLM 의 능력을 평가하기 위해 CovertComBench 를 제안하고, 현재 LLM 이 개념 이해와 코드 구현에서는 우수한 성능을 보이지만 보안 보장을 위한 고차원 수학적 유도에서는 한계가 있어 신뢰할 수 있는 무선 AI 시스템 구축을 위해 외부 도구 증강이 필요함을 밝힙니다.

Zhaozhi Liu, Jiaxin Chen, Yuanai Xie, Yuna Jiang, Minrui Xu, Xiao Zhang, Pan Lai, Zan ZhouWed, 11 Ma💻 cs

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

이 논문은 다중 턴 시각 추론을 위한 새로운 벤치마크 'RegionDial-Bench'를 제안하고, 각 추론 단계에서 명시적인 바운딩 박스 인용과 전역 - 지역 일관성 보상을 통해 강화 학습을 수행하는 'RegionReasoner' 프레임워크를 소개함으로써 시각적 추론의 정확성과 공간적 근거 능력을 획기적으로 향상시킵니다.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. SnoekWed, 11 Ma💻 cs

Pathwise Test-Time Correction for Autoregressive Long Video Generation

이 논문은 증류된 자기회귀 모델의 장기간 비디오 생성 시 발생하는 오류 누적을 해결하기 위해, 초기 프레임을 안정적 기준점으로 활용하여 샘플링 경로를 보정하는 훈련 없는 '테스트 시간 보정 (TTC)' 방법을 제안하고, 이를 통해 30 초 길이의 비디오 생성에서 기존 훈련 기반 방법과媲美하는 품질을 낮은 오버헤드로 달성함을 입증합니다.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao GuoWed, 11 Ma💻 cs

Queer NLP: A Critical Survey on Literature Gaps, Biases and Trends

이 논문은 ACL 앤솔로지에 게재된 LGBTQIA+ 커뮤니티와 NLP 기술 간의 관계를 다룬 연구들을 체계적으로 검토하여, 현재 연구가 주로 기존 시스템의 편향을 지적하는 수동적 접근에 그치고 있으며, 향후 이해관계자 참여, 교차성, 학제 간 협력 및 비영어권 언어 연구 등 보다 포용적이고 정의로운 NLP 기술 개발을 위한 방향성을 제시합니다.

Sabine Weber, Angelina Wang, Ankush Gupta, Arjun Subramonian, Dennis Ulmer, Eshaan Tanwar, Geetanjali Aich, Hannah Devinney, Jacob Hobbs, Jennifer Mickel, Joshua Tint, Mae Sosto, Ray Groshan, Simone Astarita, Vagrant Gautam, Verena Blaschke, William Agnew, Wilson Y Lee, Yanan LongWed, 11 Ma💻 cs

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

이 논문은 학습 데이터 없이 다양한 문서 위조 검출 방법을 평가한 'DOCFORGE-BENCH' 벤치마크를 제시하며, 기존 방법들이 임계값 보정 실패로 인해 실제 배포 환경에서 성능이 크게 저하됨을 규명하고 문서 위조 탐지가 여전히 해결되지 않은 문제임을 강조합니다.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao RenWed, 11 Ma💻 cs

Scaling Multilingual Semantic Search in Uber Eats Delivery

이 논문은 수억 개의 쿼리 - 문서 상호작용 데이터를 기반으로 Qwen2 기반의 양방향 모델과 Matryoshka 표현 학습을 활용하여 우버 이츠의 스토어, 메뉴, 식료품 등 다양한 카테고리와 다국어 검색을 통합한 대규모 의미 기반 검색 시스템을 구축하고 평가한 내용을 담고 있습니다.

Bo Ling, Zheng Liu, Haoyang Chen, Divya Nagar, Luting Yang, Mehul ParsanaWed, 11 Ma💻 cs