logo

Uddrag tekst fra PDF-fil ved hjælp af Python

I skal alle være bekendt med, hvad PDF-filer er. Faktisk er de et af de vigtigste og mest brugte digitale medier. PDF står for Bærbart dokumentformat . Det bruger .pdf udvidelse. Det bruges til at præsentere og udveksle dokumenter pålideligt, uafhængigt af software, hardware eller operativsystem.

Vi vil udtrække tekst fra pdf-filer ved hjælp af to Python-biblioteker, pypdf og PyMuPDF , i denne artikel.



Udpakning af tekst fra en PDF-fil ved hjælp af pypdf-biblioteket.

Python-pakke pypdf kan bruges til at opnå det vi ønsker (tekstudtræk), selvom det kan mere end hvad vi har brug for. Denne pakke kan også bruges til at generere, dekryptere og flette PDF-filer. Bemærk: For mere information, se Arbejde med PDF-filer i Python

Installation

For at installere denne pakke, skriv nedenstående kommando i terminalen.

pip install pypdf>

Eksempel: Indtast PDF: uddrag-pdf-tekst-python



Python3






intern drift af hashmap

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

>

>

Produktion:

extract-pdf-python

Lad os prøve at forstå ovenstående kode i bidder:

reader = PdfReader('example.pdf')>
  • Vi skabte et objekt af Pdf-læser klasse fra pypdf modul.
  • Det Pdf-læser klasse tager et påkrævet positionsargument for stien til pdf-filen.
print(len(reader.pages))>
  • sider ejendom giver en Liste over Sideobjekter . Så her kan vi bruge den indbyggede kun() funktion af python for at få antallet af sider i pdf-filen.
page = reader.pages[0]>
  • Nu, som læser.sider er en liste over Sideobjekter , kan vi få en specifik Side af pdf'en ved at trykke på sidens indeks. I python-listen starter indeksering fra 0, så læser.sider[0] giver os den første side af pdf-filen.
text = page.extract_text() print(text)>
  • Sideobjekt har funktion extract_text() at udtrække tekst fra pdf-siden.

Udpakning af tekst fra en PDF-fil ved hjælp af PyMuPDF-biblioteket.

PyMuPDF er et Python-bibliotek, der understøtter filformater som XPS, PDF, CBR og CBZ. Men for nu, i denne artikel, vil vi koncentrere os om PDF-filer (Portable Document Format).

Installation

pip install pymupdf pip install fitz>

For at udtrække teksten fra pdf'en skal vi følge følgende trin:

  1. Import af biblioteket
  2. Åbningsdokument
  3. Udtræk tekst

Bemærk: Vi bruger sample.pdf her; for at få pdf'en, brug nedenstående link.

sample.pdf – Link

1. Import af biblioteket

Python3




streng understreng java
import> fitz>

>

>

2. Åbningsdokument

Python3


forskel på en løve og en tiger



doc>=> fitz.>open>(>'sample.pdf'>)>

>

>

Her lavede vi et objekt kaldet dok , og filnavnet skal være en Python-streng.

3. Udpakning af tekst

Python3

ellers java




for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

>

>

Her gentog vi sider i pdf og brugte get_text() metode til at udtrække hver side fra filen.

Hele koden til at udtrække teksten

Python3




import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

>

kunstig intelligens og intelligente agenter
>

Produktion:

Konklusion

Vi har set to Python-biblioteker, pypdf og PyMuPDF , der kan udtrække tekst fra en PDF-fil. Kommenter dit foretrukne bibliotek fra ovenstående to biblioteker.