SFT阶段的训练数据的和RL阶段的ndcg和kl

你好。关注到这篇论文的方法设计非常巧妙。有2个问题请教下：

1. SFT的训练数据是仅使用了pointwise构造的数据，还是会使用pointwise和listwise融合后的数据？ 
如果使用融合后的数据，这里的Sgt分数似乎物理意义有些问题，因为listwise的Score本身无物理意义。这里物理意义是指融合的分与SFT Prompt中的0~10分的定义可能有差别。

2. RL阶段的KL奖励，是对policy模型rollout出的20个doc的score做softmax，与20个融合分过softmax后进行KL计算吗？  ndcg奖励的real score是用的Sgt吗？