
Stable Vicuna 产品介绍
StableVicuna,这是第一个通过人类反馈强化学习(RHLF)训练的大规模开源聊天机器人。StableVicuna是Vicuna v0 13b的进一步指令微调和RLHF训练版本,它是一个指令微调的LLaMA 13b模型。
同样,这里有一些基准,显示了与其他类似规模的开源聊天机器人相比,StableVicuna的整体性能。
为了实现StableVicuna的强大性能,我们利用Vicuna作为基础模型,并遵循Steinnon等人和Ouyang等人概述的典型的三阶段RLHF管道。使用三个数据集,通过监督微调(SFT)进一步训练基础Vicuna模型:
关于Stable Vicuna特别声明
本站AI工具网 提供的【Stable Vicuna】 工具信息资源来源于网站整理或服务商自行提交,从本站跳转后由【Stable Vicuna】网站提供服务,与AI工具网无关,如需付费请先进行免费试用,满足需求后再付费,请用户注意自行甄别服务和信用卡扣款方式,避免上当受骗。在【2023年6月17日 下午2:23】收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具网不承担任何责任。