有研究人员近日公布了一种名为HRM-Text的新型语言模型训练方案,称其从零开始训练一个10亿参数基础模型,估算计算成本约为1500美元,训练时长为1.9天,使用16块GPU完成。研究人员表示,这一方案能够降低基础大模型预训练对高算力和海量互联网文本的依赖。
AI模型
据uzhuangji.net了解,HRM-Text没有采用常见的Transformer架构,而是基于分层循环模型HRM构建,将计算分为变化较慢的策略层和变化较快的执行层。与传统大模型通过“下一个词预测”学习原始文本不同,HRM-Text仅使用“指令-回复”数据进行训练,训练目标也从逐词预测改为任务完成,即主要根据最终回答质量进行优化。研究团队称,这种方式更接近企业实际使用场景,因为用户通常是围绕具体任务提出问题并期待明确答复。

在数据规模上,HRM-Text训练时使用了约400亿个标记,显著少于主流模型常见的更大规模训练语料。数据由通用指令、数学、符号逻辑、教材练习和改写知识等“指令-回复”样本组成。研究人员还在训练中移除了展示中间推理过程的相关标记,以促使模型更多依赖内部层级推理结构。

测试结果显示,这一10亿参数模型在多项基准上取得了与更大开源模型接近的表现,包括MMLU得分60.7%、GSM8K得分84.5%、MATH得分56.2%。研究人员称,该模型训练时使用的标记数量比部分Qwen、Gemma和Llama模型少100倍至900倍,估算计算量低96倍至432倍。

为解决循环结构在语言训练中容易出现梯度爆炸或消失的问题,研究团队还引入了名为MagicNorm的归一化方法,并采用逐步增加推理深度的预热训练策略。研究人员认为,这表明基础模型预训练不一定只能由高资源机构完成,企业未来可以围绕自身业务数据和外部知识库,训练更紧凑的推理核心模型。
不过,研究团队也指出,HRM-Text目前更接近概念验证,并非现成的通用聊天产品替代方案,在多轮对话、推理模式控制和工程适配方面仍需要进一步完善。
上一篇:沃尔沃ES90开启预订:提供三种动力版本 起售价约7000万韩元
下一篇:最后一页
类型:手机工具 大小:318.44M
下载类型:手机工具 大小:10.49M
下载优装机下载站(https://www.uzhuangji.net/)版权所有:闽ICP备2026008968号-1
本站资源均收集整理于互联网,其著作权归原作者所有,如果有侵犯您权利的资源,请来信告知,我们将及时撤销相应资源。





