unstructured | allainews.com

s

Feb. 2, 2024, 2:47 a.m. |

Simon Willison's Weblog simonwillison.net

Relatively new but impressively capable Python library (Apache 2 licensed) for extracting information from unstructured documents, such as PDFs, images, Word documents and many other formats.

I got some good initial results against a PDF by running "pip install 'unstructured[pdf]'" and then using the "unstructured.partition.pdf.partition_pdf(filename)" function.

There are a lot of moving parts under the hood: pytesseract, OpenCV, various PDF libraries, even an ONNX model - but it installed cleanly for me on macOS and worked out of the …

apache documents function good images information install library moving ocr opencv pdf pdfs pip pytesseract python running unstructured unstructured documents word

More from simonwillison.net / Simon Willison's Weblog

Si

Quoting Martin Kleppmann 12 hours ago | simonwillison.net

ai current ideas job +3

Si

Everything Google's Python team were responsible for 12 hours ago | simonwillison.net

everything google hacker hackernews +4

Si

Quoting Moxie Marlinspike 1 day, 10 hours ago | simonwillison.net

ai black box box build +8

Si

Quoting Dana Mattioli 1 day, 13 hours ago | simonwillison.net

access amazon competitors dana +9

Si

Food Delivery Leak Unmasks Russian Security Agents 2 days, 5 hours ago | simonwillison.net

agents april bellingcat data +18

Si

Quoting Alex Jason, via Adam Savage 2 days, 17 hours ago | simonwillison.net

adam alex difference jason +4

Si

Quoting James Betker 3 days, 2 hours ago | simonwillison.net

clear dataset datasets every +6

Si

Blogmarks that use markdown 3 days, 3 hours ago | simonwillison.net

blog blogging commentary djangosqldashboard +6

Si

No, Most Books Don't Sell Only a Dozen Copies 3 days, 3 hours ago | simonwillison.net

antitrust book books lawsuit +6

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net

Senior Machine Learning Engineer (MLOps)

@ Promaton | Remote, Europe

View on ai-jobs.net

Principal Data Engineering Manager

@ Microsoft | Redmond, Washington, United States

View on ai-jobs.net

Machine Learning Engineer

@ Apple | San Diego, California, United States

View on ai-jobs.net