pdf如何用python读取?

发布时间:2022-05-27 09:52:54 人气:87 作者:多测师

  python中可以使用pdfminer库来读取PDF文件中的内容。

  安装命令:

  pip install pdfminer

  pip install pdfminer3k

  python中读取PDF文件代码:

  from urllib.request import urlopen

  from pdfminer.pdfinterp import PDFResourceManager, process_pdf

  from pdfminer.converter import TextConverter

  from pdfminer.layout import LAParams

  from io import StringIO

  from io import open

  def readPDF(pdfFile):

  rsrcmgr = PDFResourceManager()

pdf如何用python读取?

  retstr = StringIO()

  laparams = LAParams()

  device = TextConverter(rsrcmgr, retstr, laparams=laparams)

  process_pdf(rsrcmgr, device, pdfFile)

  device.close()

  content = retstr.getvalue()

  retstr.close()

  return content

  pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")

  outputString = readPDF(pdfFile)

  print(outputString)

  pdfFile.close()

  解析pdf文件用到的类:

  PDFParser:从一个文件中获取数据

  PDFDocument:保存获取的数据,和PDFParser是相互关联的

  PDFPageInterpreter处理页面内容

  PDFDevice将其翻译成你需要的格式

  PDFResourceManager用于存储共享资源,如字体或图像。

  以上内容为大家介绍了pdf如何用python读取?希望对大家有所帮助,如果想要了解更多Python相关知识,请关注多测师。https://www.e70w.com/xwzx/


返回列表
在线客服
联系方式

热线电话

17727591462

上班时间

周一到周五

二维码
线