HELM 收藏 描述: 斯坦福大学推出的大模型评测体系 HELM 介绍 HELM(Holistic Evaluation of Language Models)由斯坦福 CRFM 推出,以“场景-指标-模型”三维框架系统评估基础模型,覆盖 42 个公开数据集、21 类下游任务与 7 大关键指标(准确率、鲁棒性、公平性、效率等),支持零样本、少样本与微调三种范式;提供可复现脚本、云端 GPU 一键复跑与可视化报告,所有数据与代码完全开源,免费使用,被学界与工业界视为权威基准。 HELM 截图 HELM AI评测 ✨开始AI评测 HELM 网站 评测时间 Powered by deepseek 上一篇 GhatGPT 下一篇 LMArena HELM 评分 0.0 暂无评分 5星 0条 4星 0条 3星 0条 2星 0条 1星 0条 请给网站评分吧 确认评分