Skip to content

SFT阶段的训练数据的和RL阶段的ndcg和kl #12

@lianoid

Description

@lianoid

你好。关注到这篇论文的方法设计非常巧妙。有2个问题请教下:

  1. SFT的训练数据是仅使用了pointwise构造的数据,还是会使用pointwise和listwise融合后的数据?
    如果使用融合后的数据,这里的Sgt分数似乎物理意义有些问题,因为listwise的Score本身无物理意义。这里物理意义是指融合的分与SFT Prompt中的0~10分的定义可能有差别。

  2. RL阶段的KL奖励,是对policy模型rollout出的20个doc的score做softmax,与20个融合分过softmax后进行KL计算吗? ndcg奖励的real score是用的Sgt吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions