MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

이 논문은 전문가 수준의 테이블 이해, 추론, 조작 능력을 포괄적으로 평가하기 위해 25 가지 실제 태스크와 28,000 개 이상의 질문으로 구성된 대규모 벤치마크인 MMTU 를 소개하고, 최신 선두 모델들조차 이 작업에서 상당한 개선의 여지가 있음을 보여줍니다.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

EROICA 는 대규모 GPU 클러스터에서 발생하는 하드웨어 및 소프트웨어 성능 문제를 실시간으로 진단하고 근본 원인을 규명하기 위해 프로파일링 기반의 미세 관찰과 차등 관측성을 활용한 최초의 온라인 문제 해결 시스템입니다.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan Zhai2026-03-10🤖 cs.LG

Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback

이 논문은 로지스틱 컨텍스트 슬레이트 밴딧 문제에서 국소적 계획과 전역적 학습을 결합하여 NO(1)N^{O(1)} 의 낮은 계산 비용으로 O~(T)\tilde{O}(\sqrt{T}) 의 후회 (regret) 를 달성하는 효율적인 알고리즘을 제안하고, 이를 언어 모델의 프롬프트 예제 선택 등 실제 응용에 성공적으로 적용함을 보여줍니다.

Tanmay Goyal, Gaurav Sinha2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

이 논문은 DPO(직접 선호도 최적화) 과정 중 모델의 학습 상태 변화에 따라 배치 단위로 샘플을 동적으로 선택하는 'SamS' 알고리즘을 제안하여, 핵심 알고리즘을 수정하지 않고도 추가적인 계산 비용 없이 LLM 의 정렬 성능을 크게 향상시키는 새로운 방향을 제시합니다.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

이 논문은 대규모 언어 모델을 활용한 테이블 파인튜닝 전략과 삼중항 표현을 통해 실제 오류 분포를 충실히 반영하는 'TableEG' 프레임워크를 제안하여, 기존 합성 오류 생성의 한계를 극복하고 데이터 정제 기술의 실용적인 벤치마킹을 가능하게 합니다.

Xinyuan Liu, Jiahui Chen, Bocheng Hu, Yu Sun, Xinyang Chen, Shaoxu Song, Yongxin Tong2026-03-10🤖 cs.LG

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

이 논문은 센서 고장이나 개인정보 보호로 인한 불완전한 멀티모달 데이터의 감정 인식 성능 저하 문제를 해결하기 위해, 모달리티 조합별 특성을 고려한 저랭크 적응 기법 (MCLA) 과 표현 공간의 분리 가능성을 기반으로 동적 파라미터 미세 조정을 수행하는 (DPFT) 새로운 프레임워크인 MCULoRA 를 제안하여 기존 방법보다 뛰어난 성능을 입증했습니다.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

이 논문은 MLLM 검증기에서 발생하는 '동의 편향 (agreement bias)'을 해결하기 위해 사전 지식을 생성한 후 이를 기반으로 추론하는 '자기 기반 검증 (SGV)' 방법을 제안함으로써, 에이전트의 실패 감지 정확도와 태스크 완료율을 기존 최첨단 성능보다 크게 향상시켰다고 설명합니다.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Flow Matching Meets Biology and Life Science: A Survey

이 논문은 생물학 및 생명과학 분야에서 유체 매칭 (Flow Matching) 의 기초와 변형, 그리고 생물학적 서열 모델링, 분자 생성 및 설계, 펩타이드 및 단백질 생성에 대한 응용을 체계적으로 검토하고 향후 방향을 제시하는 최초의 포괄적인 조사 연구입니다.

Zihao Li, Zhichen Zeng, Xiao Lin, Feihao Fang, Yanru Qu, Zhe Xu, Zhining Liu, Xuying Ning, Tianxin Wei, Ge Liu, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Weak-to-Strong Generalization with Failure Trajectories: A Tree-based Approach to Elicit Optimal Policy in Strong Models

이 논문은 약한 모델이 생성한 성공 및 실패 트레젝토리를 계층적 '트레젝토리 트리'로 구성하고 몬테카를로 트리 탐색 (MCTS) 을 결합하여 복잡한 의사결정 환경에서 약한 모델의 감독 하에 강력한 모델의 최적 정책을 유도하는 새로운 약-강 일반화 (W2SG) 프레임워크를 제안합니다.

Ruimeng Ye, Zihan Wang, Yang Xiao, Zinan Ling, Manling Li, Bo Hui2026-03-10🤖 cs.LG

Exposing the Illusion of Fairness: Auditing Vulnerabilities to Distributional Manipulation Attacks

이 논문은 악의적인 감사 대상자가 공정한 것처럼 보이면서도 대표성을 갖춘 샘플을 조작하여 EU AI Act 와 같은 규제 하의 공평성 검사를 우회할 수 있음을 수학적으로 증명하고, 이를 탐지하기 위한 통계적 검증 방법과 대응 전략을 제시합니다.

Valentin Lafargue, Adriana Laurindo Monteiro, Emmanuelle Claeys, Laurent Risser, Jean-Michel Loubes2026-03-10🤖 cs.LG

Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models

이 논문은 정적 벤치마크의 한계를 극복하고 의료용 대형 언어 모델의 신뢰성을 확보하기 위해, 견고성·개인정보·편향·환각 등 4 가지 안전 축을 실시간으로 스트레스 테스트하는 동적·자동화·체계적 (DAS) 레드팀 프레임워크를 제안하고, 이를 통해 기존 벤치마크 점수와 실제 동적 안정성 간에 심각한 격차가 있음을 입증했습니다.

Jiazhen Pan (Cherise), Bailiang Jian (Cherise), Paul Hager (Cherise), Yundi Zhang (Cherise), Che Liu (Cherise), Friedrike Jungmann (Cherise), Hongwei Bran Li (Cherise), Chenyu You (Cherise), Junde Wu (Cherise), Jiayuan Zhu (Cherise), Fenglin Liu (Cherise), Yuyuan Liu (Cherise), Niklas Bubeck (Cherise), Christian Wachinger (Cherise), Chen (Cherise), Chen (Cherise), Zhenyu Gong, Cheng Ouyang, Georgios Kaissis, Benedikt Wiestler, Daniel Rueckert2026-03-10🤖 cs.LG