跳转至

HELM

标题

  • Holistic Evaluation of Language Models 对语言模型的全面评估
  • 省流:
  • InstructGPT目前效果最好
  • 通常是越大越好,在某个领域比较强一般都需要50B以上的模型
  • 目前模型对Prompt非常敏感
  • 其他略