关于lora+ppo的信息

物恋 2024-08-21 11:00:10 1580 150

今天给各位分享lora+ppo的知识，其中也会对进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

使用LLaMa-Factory简单高效微调大模型

〖壹〗、我们建议在量化模型的预测中使用 --per_device_eval_batch_size=1 和 --max_target_length 128。[1] LLaMA-Factory/README_zh.md at main · hiyouga/LLaMA-Factory (github.com)[2] Sunsimiao：孙思邈中文医疗大模型 Sumsimiao，基于 Baichuan-7B 和 ChatGLM-6B 在中文医疗数据上微调而得。

〖贰〗、 LLaMa-Factory是一个强大的工具，用于微调大模型，本文将引导你通过这个框架为Qwen5-4B模型增添function calling功能，使模型具备调用外部工具的能力。首先，理解function calling的原理，它是让模型像调用API一样使用外部知识库。

〖叁〗、 LLaMA-Factory作为一个低代码训练框架，简化了大模型微调过程。它集成多种微调技术和优化方法，允许用户使用私域数据进行领域模型定制，即使非开发者也能轻松操作。例如，通过设置ChatGLM3-6B-Chat本地加载，选取 RoleBench数据集并采用lora方式进行微调，16G单卡仅需两小时即可完成训练。

〖肆〗、模型下载地址一：huggingface.co/ztyl-tec...模型下载地址二：modelscope.cn/models/zt...智通云联计划加大语料，训练油气行业大模型，并重点提升模型的阅读理解能力。

关于lora+ppo的信息-第1张图片

lora+ppo的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于、lora+ppo的信息别忘了在本站进行查找喔。

本文地址： https://article.minewtech.com/29518.html

文章来源：物恋