We know they were trained with data from various sources, mostly web documents, code, and mathematical texts. The data was filtered to remove CSAM content and PII as well as licensing checks.
Stack-Edu-Python 数据集 这里,我们也用了和 FineWeb-Edu 一样的方法。 我们用 Llmama3 对 The Stack 数据集中 50 万的 python 代码段根据教育价值进行打分,然后使用这些打过分的数据训来年了一个 分类器。 然后我们在 Starcoder 模型的训练语料库的 python 子集中使用这个分类器。