Running OCR against PDFs and images directly in your browser | allainews.com

s

March 30, 2024, 5:59 p.m. |

Simon Willison's Weblog simonwillison.net

I attended the Story Discovery At Scale data journalism conference at Stanford this week. One of the perennial hot topics at any journalism conference concerns data extraction: how can we best get data out of PDFs and images?

I've been having some very promising results with Gemini Pro 1.5, Claude 3 and GPT-4 Vision recently - I'll write more about that soon. But those tools are still inconvenient for most people to use.

Meanwhile, older tools like Tesseract OCR are …

aiassistedprogramming browser claude concerns conference data data extraction data journalism datajournalism discovery extraction gemini gemini pro hot images journalism ocr pdfs pro 1.5 projects results running scale stanford story tesseract topics

More from simonwillison.net / Simon Willison's Weblog

Si

Quoting Richard Schneeman 20 hours ago | simonwillison.net

app availability heroku mean +9

Si

Quoting Casey Newton 1 day, 3 hours ago | simonwillison.net

ai ai tools country ethics +16

Si

PaliGemma model README 1 day, 5 hours ago | simonwillison.net

ai announcements family gemma +18

Si

Managing your work in the API platform with Projects 1 day, 7 hours ago | simonwillison.net

api api platform calendar cap +14

Si

ChatGPT in "4o" mode is not running the new features yet 1 day, 7 hours ago | simonwillison.net

ai altman announcement capabilities +22

Si

Quoting Arvind Narayanan 1 day, 9 hours ago | simonwillison.net

acting agi ai ai companies +17

Si

How to PyCon 1 day, 10 hours ago | simonwillison.net

conferences giving glyph keynote +6

Si

Quoting Bruce Schneier 1 day, 12 hours ago | simonwillison.net

ai bruce schneier bruceschneier change +12

Si

Quoting John Gruber 1 day, 22 hours ago | simonwillison.net

apple chips current demand +12

Software Engineer for AI Training Data (School Specific)

@ G2i Inc | Remote

View on ai-jobs.net

Software Engineer for AI Training Data (Python)

@ G2i Inc | Remote

View on ai-jobs.net

Software Engineer for AI Training Data (Tier 2)

@ G2i Inc | Remote

View on ai-jobs.net

Data Engineer

@ Lemon.io | Remote: Europe, LATAM, Canada, UK, Asia, Oceania

View on ai-jobs.net

Artificial Intelligence – Bioinformatic Expert

@ University of Texas Medical Branch | Galveston, TX

View on ai-jobs.net

Lead Developer (AI)

@ Cere Network | San Francisco, US

View on ai-jobs.net