mC4

NLP | mC4数据集

MC4 是C4 的子集,MC4 是从公共 Common Crawl 存储库中提取的约 750GB 英语文本的集合。Common Crawl 包含数十亿个从 Internet 抓取的网页。尽管 C4 数据集被明确设计为仅英语,但 MC4 覆盖了 Common Crawl 迄今为止发布的 108 种语言 ......
数据 NLP mC4 mC
共1篇  :1/1页 首页上一页1下一页尾页