pymupdf TextPage.extractBLOCKS() no longer includes images by default

2024-09-01 13:13:14 -04:00 · 2024-09-01 13:13:14 -04:00 · 83a836f9b5
commit 83a836f9b5
parent 1d798476c9
1 changed files with 1 additions and 1 deletions
--- a/dlibrary/dlibrary.py
+++ b/dlibrary/dlibrary.py
@ -697,7 +697,7 @@ def block_relevant(block):
    return block_is_image(block) or not IRRELEVANT_PDF_BLOCK_REGEX.search(block_text(block))

 def relevant_blocks(page):
-    blocks = page.get_text('blocks')
+    blocks = page.get_text('blocks', flags=(fitz.TEXTFLAGS_BLOCKS | fitz.TEXT_PRESERVE_IMAGES))
    return [block for block in blocks if block_relevant(block)]

 def is_single_image(page):