
AI大模型训练数据包(高级数学类1986G)(本系列含4套数据包可选)
HK$49,999.00 - HK$149,999.00
HK$299,999.00
数据包覆盖了世界知名大学的大学、硕士、博士、研究员等水平的研究、学术、问答数据等。
数据包内大学目录含:耶鲁大学、哈佛大学、牛津大学、纽约大学、芝加哥大学、剑桥大学等教学解题数据与教学材料等。
数据包包含:原始数据、经处理的数据、数据包使用手册等,可直接进行大模型训练,合计约2000G左右,大概约1亿条高级数学数据。
本数据由于数量较大,分为4个数据包版本,每个数据包4.9万港币,每个约3000万左右高级数学数据。4个一起购买享受6.9折优惠。
发布日期:2025年3月22日(本数据包每3个月会对数据进行更新与增加数据量,已购买的用户可在下载链接中免费获取最新的数据)
- 2025年3月22日,最新发布高级数学类数据包(1986G),本数据包与数学类数据包(516G)重复率不超过1%。
- 数据来自世界知名大学相关信息渠道获取的大学以上水平的问题、答案、材料等,,并通过允许各大模型技术使用文本推理和 Python 解释器执行的代码块混合来综合生成解决方案。
- 数据包内大学目录含:耶鲁大学、哈佛大学、牛津大学、纽约大学、芝加哥大学、剑桥大学等教学解题数据与教学材料等,数据集被分为我们在消融实验中使用的训练和验证子集。
- LLM大模型训练数据包(高级数学类)包含以下字段:
question:来自 名校等渠道的高级数学问题 。
generated_solution:使用文本推理和代码块混合生成的解决方案。
expected_answer:原始数据集中提供的真实答案。
predict_answer:相应解决方案中 Mixtral 模型预测的答案(从中提取\boxed{})。
error_message:<not_executed>如果未使用代码。否则为空或包含来自相应代码块的 Python 异常。字符串timeout表示代码块执行时间超过 10 秒。在当前数据集版本中,我们总是在出现任何错误或超时后停止生成。
is_correct:我们的评分脚本是否认为最终答案正确。
数据集:neuronicx_math_high或 neuronicxLLM-math_high。
generation_type:without_reference_solution或masked_reference_solution。
其他补充:由于数据庞大,格式众多,我们除了将数据整理成以上适合LLM训练格式外,对于更加复杂的题目进行了额外的数据解释和补充,部分需要补充的数据则会增加相关的数据特点(例如增加更多字段、格式)。
原始数据集:部分数学由于符号过为复杂,一般会以原始数据直接训练,因此不做Jason格式的转换处理。
(LLM训练格式示例 Jason格式数据 示例)
- 数据包包含:原始数据、经处理的数据、数据包使用手册等,可直接进行大模型训练,合计约2000G左右,大概约1亿条高级数学数据,大部分为文档、Text、Jason、Latex、图片、影片等格式。
- 本数据由于数量较大,分为4个数据包版本,每个数据包4.9万港币,每个约3000万左右高级数学数据。
发布日期:2025年3月22日(本数据包每3个月会对数据进行更新与增加数据量,已购买的用户可在下载链接中免费获取最新的数据)
在官网一次性下单多个数据包时,你可以使用以下优惠码进行减免。(本系列分批下单不支持以下优惠)
- 10%优惠码:LLM10(购买2个Chegg数据包时使用,可直接减免10%金额)
- 20%优惠码:LLM20(购买4个Chegg数据包时使用,可直接减免20%金额)
- 30%优惠码:LLM30(购买6个Chegg数据包时使用,可直接减免30%金额)
- 40%优惠码:LLM40(购买8个Chegg数据包时使用,可直接减免40%金额)
- 50%优惠码:LLM50(购买10个Chegg数据包时使用,可直接减免50%金额)
注意:官网自助下单如数额较大,可能无法支付,需要联系客服获取大额支付方式。
(LLM大模型原始数据示例 LaTex格式示例)