UDDRAG TEKST FRA PDF-FIL VED HJÆLP AF PYTHON

I skal alle være bekendt med, hvad PDF-filer er. Faktisk er de et af de vigtigste og mest brugte digitale medier. PDF står for Bærbart dokumentformat . Det bruger .pdf udvidelse. Det bruges til at præsentere og udveksle dokumenter pålideligt, uafhængigt af software, hardware eller operativsystem.

Vi vil udtrække tekst fra pdf-filer ved hjælp af to Python-biblioteker, pypdf og PyMuPDF , i denne artikel.

Udpakning af tekst fra en PDF-fil ved hjælp af pypdf-biblioteket.

Python-pakke pypdf kan bruges til at opnå det vi ønsker (tekstudtræk), selvom det kan mere end hvad vi har brug for. Denne pakke kan også bruges til at generere, dekryptere og flette PDF-filer. Bemærk: For mere information, se Arbejde med PDF-filer i Python

Installation

For at installere denne pakke, skriv nedenstående kommando i terminalen.

pip install pypdf>

Eksempel: Indtast PDF: uddrag-pdf-tekst-python

Python3

intern drift af hashmap

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

Produktion:

extract-pdf-python

Lad os prøve at forstå ovenstående kode i bidder:

reader = PdfReader('example.pdf')>

Vi skabte et objekt af Pdf-læser klasse fra pypdf modul.
Det Pdf-læser klasse tager et påkrævet positionsargument for stien til pdf-filen.

print(len(reader.pages))>

sider ejendom giver en Liste over Sideobjekter . Så her kan vi bruge den indbyggede kun() funktion af python for at få antallet af sider i pdf-filen.

page = reader.pages[0]>

Nu, som læser.sider er en liste over Sideobjekter , kan vi få en specifik Side af pdf'en ved at trykke på sidens indeks. I python-listen starter indeksering fra 0, så læser.sider[0] giver os den første side af pdf-filen.

text = page.extract_text() print(text)>

Sideobjekt har funktion extract_text() at udtrække tekst fra pdf-siden.

Udpakning af tekst fra en PDF-fil ved hjælp af PyMuPDF-biblioteket.

PyMuPDF er et Python-bibliotek, der understøtter filformater som XPS, PDF, CBR og CBZ. Men for nu, i denne artikel, vil vi koncentrere os om PDF-filer (Portable Document Format).

Installation

pip install pymupdf pip install fitz>

For at udtrække teksten fra pdf'en skal vi følge følgende trin:

Import af biblioteket
Åbningsdokument
Udtræk tekst

Bemærk: Vi bruger sample.pdf her; for at få pdf'en, brug nedenstående link.

sample.pdf – Link

1. Import af biblioteket

Python3

streng understreng java

import> fitz>

2. Åbningsdokument

Python3

forskel på en løve og en tiger

doc>=> fitz.>open>(>'sample.pdf'>)>

Her lavede vi et objekt kaldet dok , og filnavnet skal være en Python-streng.

3. Udpakning af tekst

Python3

ellers java

for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

Her gentog vi sider i pdf og brugte get_text() metode til at udtrække hver side fra filen.

Hele koden til at udtrække teksten

Python3

import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

kunstig intelligens og intelligente agenter

Produktion:

Konklusion

Vi har set to Python-biblioteker, pypdf og PyMuPDF , der kan udtrække tekst fra en PDF-fil. Kommenter dit foretrukne bibliotek fra ovenstående to biblioteker.

TechCodeview

Udpakning af tekst fra en PDF-fil ved hjælp af pypdf-biblioteket.

Installation

Python3

Udpakning af tekst fra en PDF-fil ved hjælp af PyMuPDF-biblioteket.

Installation

Python3

Python3

Python3

Python3

Konklusion