I skal alle være bekendt med, hvad PDF-filer er. Faktisk er de et af de vigtigste og mest brugte digitale medier. PDF står for Bærbart dokumentformat . Det bruger .pdf udvidelse. Det bruges til at præsentere og udveksle dokumenter pålideligt, uafhængigt af software, hardware eller operativsystem.
Vi vil udtrække tekst fra pdf-filer ved hjælp af to Python-biblioteker, pypdf og PyMuPDF , i denne artikel.
Udpakning af tekst fra en PDF-fil ved hjælp af pypdf-biblioteket.
Python-pakke pypdf kan bruges til at opnå det vi ønsker (tekstudtræk), selvom det kan mere end hvad vi har brug for. Denne pakke kan også bruges til at generere, dekryptere og flette PDF-filer. Bemærk: For mere information, se Arbejde med PDF-filer i Python
Installation
For at installere denne pakke, skriv nedenstående kommando i terminalen.
pip install pypdf>
Eksempel: Indtast PDF: 
Python3
intern drift af hashmap
# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)> |
>
>
Produktion:
Lad os prøve at forstå ovenstående kode i bidder:
reader = PdfReader('example.pdf')> - Vi skabte et objekt af Pdf-læser klasse fra pypdf modul.
- Det Pdf-læser klasse tager et påkrævet positionsargument for stien til pdf-filen.
print(len(reader.pages))>
- sider ejendom giver en Liste over Sideobjekter . Så her kan vi bruge den indbyggede kun() funktion af python for at få antallet af sider i pdf-filen.
page = reader.pages[0]>
- Nu, som læser.sider er en liste over Sideobjekter , kan vi få en specifik Side af pdf'en ved at trykke på sidens indeks. I python-listen starter indeksering fra 0, så læser.sider[0] giver os den første side af pdf-filen.
text = page.extract_text() print(text)>
- Sideobjekt har funktion extract_text() at udtrække tekst fra pdf-siden.
Udpakning af tekst fra en PDF-fil ved hjælp af PyMuPDF-biblioteket.
PyMuPDF er et Python-bibliotek, der understøtter filformater som XPS, PDF, CBR og CBZ. Men for nu, i denne artikel, vil vi koncentrere os om PDF-filer (Portable Document Format).
Installation
pip install pymupdf pip install fitz>
For at udtrække teksten fra pdf'en skal vi følge følgende trin:
- Import af biblioteket
- Åbningsdokument
- Udtræk tekst
Bemærk: Vi bruger sample.pdf her; for at få pdf'en, brug nedenstående link.
sample.pdf – Link
1. Import af biblioteket
Python3
streng understreng java
import> fitz> |
>
>
2. Åbningsdokument
Python3
forskel på en løve og en tiger
doc>=> fitz.>open>(>'sample.pdf'>)> |
>
>
Her lavede vi et objekt kaldet dok , og filnavnet skal være en Python-streng.
3. Udpakning af tekst
Python3
ellers java
for> page>in> doc:> >text>=> page.get_text()> >print>(text)> |
>
>
Her gentog vi sider i pdf og brugte get_text() metode til at udtrække hver side fra filen.
Hele koden til at udtrække teksten
Python3
import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)> |
>
kunstig intelligens og intelligente agenter
>
Produktion:

Konklusion
Vi har set to Python-biblioteker, pypdf og PyMuPDF , der kan udtrække tekst fra en PDF-fil. Kommenter dit foretrukne bibliotek fra ovenstående to biblioteker.