HELM 标题 Holistic Evaluation of Language Models 对语言模型的全面评估 省流: InstructGPT目前效果最好 通常是越大越好,在某个领域比较强一般都需要50B以上的模型 目前模型对Prompt非常敏感 其他略