Running OCR against PDFs and images directly in your browser | allainews.com

s

March 30, 2024, 5:59 p.m. |

Simon Willison's Weblog simonwillison.net

I attended the Story Discovery At Scale data journalism conference at Stanford this week. One of the perennial hot topics at any journalism conference concerns data extraction: how can we best get data out of PDFs and images?

I've been having some very promising results with Gemini Pro 1.5, Claude 3 and GPT-4 Vision recently - I'll write more about that soon. But those tools are still inconvenient for most people to use.

Meanwhile, older tools like Tesseract OCR are …

aiassistedprogramming browser claude concerns conference data data extraction data journalism datajournalism discovery extraction gemini gemini pro hot images journalism ocr pdfs pro 1.5 projects results running scale stanford story tesseract topics

More from simonwillison.net / Simon Willison's Weblog

Si

I'm writing a new vector search SQLite Extension 13 hours ago | simonwillison.net

alex alexgarcia dependencies embeddings +14

Si

Quoting Zach Seward 21 hours ago | simonwillison.net

advances ai attention bias +14

Si

Printing music with CSS Grid 1 day, 2 hours ago | simonwillison.net

application bond column css +10

Si

We can have a different web 1 day, 14 hours ago | simonwillison.net

audio dog headphones mollywhite +2

Si

Quoting Tom Eastman 1 day, 14 hours ago | simonwillison.net

five internet remember when text +2

Si

Llama 3 prompt formats 1 day, 22 hours ago | simonwillison.net

ai clear documentation every +12

Si

Introducing the Claude Team plan and iOS app 2 days ago | simonwillison.net

access anthropic app claude +11

Si

Save the Web by Being Nice 2 days, 14 hours ago | simonwillison.net

andrew article blog blogging +6

Si

Quoting LMSYS 2 days, 20 hours ago | simonwillison.net

ai api commercial community +9

AI Research Scientist

@ Vara | Berlin, Germany and Remote

View on ai-jobs.net

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net

Senior Data Engineer (m/f/d)

@ Project A Ventures | Berlin, Germany

View on ai-jobs.net

Principle Research Scientist

@ Analog Devices | US, MA, Boston

View on ai-jobs.net