HELM

描述：斯坦福大学推出的大模型评测体系

HELM 介绍

HELM（Holistic Evaluation of Language Models）由斯坦福 CRFM 推出，以“场景-指标-模型”三维框架系统评估基础模型，覆盖 42 个公开数据集、21 类下游任务与 7 大关键指标（准确率、鲁棒性、公平性、效率等），支持零样本、少样本与微调三种范式；提供可复现脚本、云端 GPU 一键复跑与可视化报告，所有数据与代码完全开源，免费使用，被学界与工业界视为权威基准。