开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

请问黑盒化加速如何制作mmap类型的预训练数据集?

已解决

请问黑盒化加速如何制作mmap类型的预训练数据集?

展开
收起
felix@ 2023-01-28 07:58:53 1500 1
2 条回答
写回答
取消 提交回答
  • 今天也要加油吖~
    采纳回答

    mmap数据集制作脚本可以参照如下命令:

    python preprocess_data.py \
      --input book_wiki_owtv2_small.json  \
      --output-prefix gpt_small \
      --vocab gpt2-vocab.json \
      --dataset-impl mmap \
      --tokenizer-type GPT2BPETokenizer \
      --merge-file gpt2-merges.txt \
      --append-eod
    
    2023-01-28 10:37:16
    赞同 展开评论 打赏
  • 需要准备一个mmap类型的预训练数据集,这个数据集可以是一个文本文件,也可以是一个图像文件,或者是一个视频文件。然后,使用黑盒化加速工具将这个数据集转换成mmap类型的预训练数据集。最后,将mmap类型的预训练数据集放入模型训练程序中,以便模型可以从中获取数据进行训练。

    2023-01-28 12:37:17
    赞同 展开评论 打赏

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    低代码开发师(初级)实战教程 立即下载
    冬季实战营第三期:MySQL数据库进阶实战 立即下载
    阿里巴巴DevOps 最佳实践手册 立即下载
    http://www.vxiaotou.com