2025年5月30日消息,国家知识产权局信息显示,支付宝(杭州)信息技术有限公司申请一项名为“大语言模型LLM的偏好对齐训练方法、电子设备及存储介质”的专利,公开号CN120069082A,申请日期为2025年02月。
专利摘要显示,本说明书一个或多个实施例提供一种大语言模型LLM的偏好对齐训练方法、电子设备及存储介质。所述训练方法包括:对待训练LLM进行多轮自迭代直接偏好优化DPO训练,并在停止条件被满足时停止训练;其中,对于正整数i,对第i‑1轮训练得到的i‑1级LLM进行第i轮训练,包括:从预设的问题库中随机选取样本问题,将所述样本问题输入所述i‑1级LLM以获取该模型生成的样本答案,并利用预设的评分模型对所述样本答案与人类偏好的对齐程度进行评分;根据所述样本答案的评分结果从所述样本问题中确定可用样本问题,并基于所述可用样本问题及其对应的可用样本答案构建训练数据;利用所述训练数据对所述i‑1级LLM进行训练以得到i级LLM。
天眼查资料显示,支付宝(杭州)信息技术有限公司,成立于2016年,位于杭州市,是一家以从事互联网和相关服务为主的企业。企业注册资本10000万人民币。通过天眼查大数据分析,支付宝(杭州)信息技术有限公司共对外投资了12家企业,参与招投标项目41次,财产线索方面有商标信息1条,专利信息5000条,此外企业还拥有行政许可57个。
本文源自金融界