Releasing Common Corpus: the largest public domain dataset for training LLMs

March 20, 2024, 7:34 p.m. |

Simon Willison's Weblog simonwillison.net

Released today. 500 billion words from "a wide diversity of cultural heritage initiatives". 180 billion words of English, 110 billion of French, 30 billion of German, then Dutch, Spanish and Italian.

Includes quite a lot of US public domain data - 21 million digitized out-of-copyright newspapers (or do they mean newspaper articles?)

"This is only an initial part of what we have collected so far, in part due to …

ai billion copyright dataset diversity domain english ethics french generativeai german heritage italian llms public public domain spanish training training llms words

Visit resource

More from simonwillison.net / Simon Willison's Weblog

Quoting D. Richard Hipp 6 hours ago | simonwillison.net

analysis code cpu decoding +11

How an empty S3 bucket can make your AWS bill explode 9 hours ago | simonwillison.net

aws bill empty s3 +4

My approach to HTML web components 9 hours ago | simonwillison.net

components frameworks html isn +11

Why SQLite Uses Bytecode 15 hours ago | simonwillison.net

architecture brand documentation example +7

Quoting tailscale.com/install.sh 23 hours ago | simonwillison.net

bash code download file +4

My notes on gpt2-chatbot 23 hours ago | simonwillison.net

ai arena big chat +11

Quoting Jeremy Howard 1 day, 4 hours ago | simonwillison.net

ai browser calculator creators +16

How do you accidentally run for President of Iceland? 1 day, 5 hours ago | simonwillison.net

case design election government +9

Zed Decoded: Rope & SumTree 2 days, 5 hours ago | simonwillison.net

copy data datastructures deleted +9

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net

Senior Machine Learning Engineer (MLOps)

@ Promaton | Remote, Europe

View on ai-jobs.net

Data Engineer - New Graduate

@ Applied Materials | Milan,ITA

View on ai-jobs.net

Lead Machine Learning Scientist

@ Biogen | Cambridge, MA, United States

View on ai-jobs.net

View more jobs

all AI news

Releasing Common Corpus: the largest public domain dataset for training LLMs

More from simonwillison.net / Simon Willison's Weblog

Jobs in AI, ML, Big Data

Data Architect

Data ETL Engineer

Lead GNSS Data Scientist

Senior Machine Learning Engineer (MLOps)

Data Engineer - New Graduate

Lead Machine Learning Scientist