pdf_extract.py 443 B

123456789101112131415161718
  1. import fitz
  2. def extract_text(file_path, page_number):
  3. # 打开PDF文件
  4. doc = fitz.open(file_path)
  5. # 检查页面号是否有效
  6. if page_number < 1 or page_number > len(doc):
  7. return "页面号超出文档范围"
  8. # 提取指定页面的文本(页面索引从0开始,因此减1)
  9. page = doc[page_number - 1]
  10. text = page.get_text()
  11. # 关闭文档
  12. doc.close()
  13. return text