跳转至

Codex

标题

  • Evaluating Large Language Models Trained on Code

摘要

  • 基于GPT,使用GitHub微调

  • 将Python的docstrings(注释)翻译成code,作者自己实现了一个数据集HumanEval用来判断Code的正确性

  • 使用sampling:即生成大量的samples然后看哪个能过,类似图片分类中的top five

方法

  • 核采样,将预测的当前词按概念从大到小依次留下来,直到所有的词的概率达到95%
  • 训练集也进行了额外的收集,为了和测试集的输入类似,相当于增加一个带标准答案的数据集

  • 考虑一个新的任务:从代码生成文档或函数名等,BERT可以但是GPT是前向的,所以他们重新做了一个训练数据集,这个数据集里注释在最后

局限性

  • Codex训练不efficient
  • prompt的使用方法,当docstring很长的时候代码水平会打折

主要内容

  • 基于GPT,使用GitHub数据微调,然后设计了164个问题来test,另外自己做了一些标准答案来提高准确率