Cohere int8 & binary Embeddings - Scale Your Vector Database to Large Datasets

March 26, 2024, 6:19 a.m. |

Simon Willison's Weblog simonwillison.net

Jo Kristian Bergum told me "The accuracy retention [of binary embedding vectors] is sensitive to whether the model has been using this binarization as part of the loss function."

Cohere provide an API for embeddings, and last week added support for returning binary vectors specifically tuned in this way.

250M embeddings (Cohere provide a downloadable dataset of 250M embedded documents from Wikipedia) at float32 (4 bytes) is …

accuracy api binary cohere database datasets embedding embeddings function large datasets loss part retention scale vector vector database vectors

Visit resource

More from simonwillison.net / Simon Willison's Weblog

Quoting Martin Kleppmann 43 minutes ago | simonwillison.net

ai current ideas job +3

Everything Google's Python team were responsible for an hour ago | simonwillison.net

everything google hacker hackernews +4

Quoting Moxie Marlinspike 22 hours ago | simonwillison.net

ai black box box build +8

Quoting Dana Mattioli 1 day, 2 hours ago | simonwillison.net

access amazon competitors dana +9

Food Delivery Leak Unmasks Russian Security Agents 1 day, 18 hours ago | simonwillison.net

agents april bellingcat data +18

Quoting Alex Jason, via Adam Savage 2 days, 5 hours ago | simonwillison.net

adam alex difference jason +4

Quoting James Betker 2 days, 15 hours ago | simonwillison.net

clear dataset datasets every +6

Blogmarks that use markdown 2 days, 15 hours ago | simonwillison.net

blog blogging commentary djangosqldashboard +6

No, Most Books Don't Sell Only a Dozen Copies 2 days, 16 hours ago | simonwillison.net

antitrust book books lawsuit +6

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net

Senior Machine Learning Engineer (MLOps)

@ Promaton | Remote, Europe

View on ai-jobs.net

Intern Large Language Models Planning (f/m/x)

@ BMW Group | Munich, DE

View on ai-jobs.net

Data Engineer Analytics

@ Meta | Menlo Park, CA | Remote, US

View on ai-jobs.net

View more jobs

all AI news

Cohere int8 & binary Embeddings - Scale Your Vector Database to Large Datasets

More from simonwillison.net / Simon Willison's Weblog

Jobs in AI, ML, Big Data

Data Architect

Data ETL Engineer

Lead GNSS Data Scientist

Senior Machine Learning Engineer (MLOps)

Intern Large Language Models Planning (f/m/x)

Data Engineer Analytics