-
Notifications
You must be signed in to change notification settings - Fork 24
Open
Description
你好。关注到这篇论文的方法设计非常巧妙。有2个问题请教下:
-
SFT的训练数据是仅使用了pointwise构造的数据,还是会使用pointwise和listwise融合后的数据?
如果使用融合后的数据,这里的Sgt分数似乎物理意义有些问题,因为listwise的Score本身无物理意义。这里物理意义是指融合的分与SFT Prompt中的0~10分的定义可能有差别。 -
RL阶段的KL奖励,是对policy模型rollout出的20个doc的score做softmax,与20个融合分过softmax后进行KL计算吗? ndcg奖励的real score是用的Sgt吗?
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels