Blog

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper review • #RL #alignment #reward weight

January, 2026
Reinforcement Pre-Training

Paper review • #RL #pre-training

January, 2026
SimMMDG: A Simple and Effective Framework for Multi-modal Domain Generalization

Paper review • #OOD #multimodal learning

October, 2025
ACL conference note

ACL'24 paper list and repo

August, 2024