WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset | allainews.com

March 1, 2024, 5:49 a.m. | Jiantao Qiu, Haijun Lv, Zhenjiang Jin, Rui Wang, Wenchang Ning, Jia Yu, ChaoBin Zhang, Pei Chu, Yuan Qu, Runyu Peng, Zhiyuan Zeng, Huanze Tang, Ruilia

cs.CL updates on arXiv.org arxiv.org

arXiv:2402.19282v1 Announce Type: new
Abstract: This paper presents WanJuan-CC, a safe and high-quality open-sourced English webtext dataset derived from Common Crawl data. The study addresses the challenges of constructing large-scale pre-training datasets for language models, which require vast amounts of high-quality data. A comprehensive process was designed to handle Common Crawl data, including extraction, heuristic rule filtering, fuzzy deduplication, content safety filtering, and data quality filtering. From approximately 68 billion original English documents, we obtained 2.22T Tokens of safe data …

abstract arxiv challenges cs.cl data dataset datasets english language language models paper pre-training process quality quality data scale study training training datasets type vast

More from arxiv.org / cs.CL updates on arXiv.org

Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications 2 hours ago | arxiv.org

abstract applications arxiv challenge +26

Unlearning Traces the Influential Training Data of Language Models 2 hours ago | arxiv.org

abstract arxiv cs.ai cs.cl +17

Axis Tour: Word Tour Determines the Order of Axes in ICA-transformed Embeddings 2 hours ago | arxiv.org

abstract analysis arxiv components +20

Japanese Tort-case Dataset for Rationale-supported Legal Judgment Prediction 2 hours ago | arxiv.org

abstract arxiv case court +14

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI 2 hours ago | arxiv.org

abstract agi art arxiv +21

ConceptPsy:A Benchmark Suite with Conceptual Comprehensiveness in Psychology 2 hours ago | arxiv.org

abstract arxiv benchmark benchmarks +19

MC$^2$: Towards Transparent and Culturally-Aware NLP for Minority Languages in China 2 hours ago | arxiv.org

abstract accessibility arxiv challenge +19

Dodo: Dynamic Contextual Compression for Decoder-only LMs 2 hours ago | arxiv.org

abstract arxiv attention compression +23

Active Learning for Multilingual Fingerspelling Corpora 2 hours ago | arxiv.org

abstract active learning analysis apply +16

Senior Machine Learning Engineer

@ GPTZero | Toronto, Canada

View on ai-jobs.net

Customer Data Analyst with Spanish

@ Michelin | Voluntari

View on ai-jobs.net

HC Data Analyst - Senior

@ Leidos | 1662 Intelligence Community Campus - Bethesda MD

View on ai-jobs.net

Healthcare Research & Data Analyst- Infectious, Niche, Rare Disease

@ Clarivate | Remote (121- Massachusetts)

View on ai-jobs.net

Data Analyst (maternity leave cover)

@ Clarivate | R155-Belgrade

View on ai-jobs.net

Sales Enablement Data Analyst (Remote)

@ CrowdStrike | USA TX Remote

View on ai-jobs.net