From e16e8270284516c63dc06072acb95089232c7c6d Mon Sep 17 00:00:00 2001
From: CaptainB <bin@fit2cloud.com>
Date: Wed, 25 Sep 2024 15:10:56 +0800
Subject: [PATCH] =?UTF-8?q?fix:=20=E5=A4=84=E7=90=86=E6=96=87=E6=9C=AC?=
 =?UTF-8?q?=E5=89=8D=E5=90=8E=E7=9A=84=E7=A9=BA=E7=99=BD=E5=AD=97=E7=AC=A6?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 apps/common/handle/impl/pdf_split_handle.py | 30 +++++++++++++++------
 1 file changed, 22 insertions(+), 8 deletions(-)

diff --git a/apps/common/handle/impl/pdf_split_handle.py b/apps/common/handle/impl/pdf_split_handle.py
index ca6d3bbde..99e238783 100644
--- a/apps/common/handle/impl/pdf_split_handle.py
+++ b/apps/common/handle/impl/pdf_split_handle.py
@@ -236,14 +236,28 @@ class PdfSplitHandle(BaseSplitHandle):
 
         # 目录中没有前言部分，手动处理
         if handle_pre_toc:
-            if pattern_list is not None and len(pattern_list) > 0:
-                split_model = SplitModel(pattern_list, with_filter, limit)
-            else:
-                split_model = SplitModel(default_pattern_list, with_filter=with_filter, limit=limit)
-            # 插入目录前的部分
-            page_content = re.sub(r'(?<!。)\n+', '', page_content)
-            page_content = re.sub(r'(?<!.)\n+', '', page_content)
-            pre_toc = split_model.parse(page_content)
+            pre_toc = []
+            lines = page_content.strip().split('\n')
+            try:
+                for line in lines:
+                    if re.match(r'^前\s*言', line):
+                        pre_toc.append({'title': line, 'content': ''})
+                    else:
+                        pre_toc[-1]['content'] += line
+                for i in range(len(pre_toc)):
+                    pre_toc[i]['content'] = re.sub(r'(?<!。)\n+', '', pre_toc[i]['content'])
+                    pre_toc[i]['content'] = re.sub(r'(?<!.)\n+', '', pre_toc[i]['content'])
+            except BaseException as e:
+                max_kb.info(f'此文档没有前言部分，按照普通文本处理: {e}')
+                if pattern_list is not None and len(pattern_list) > 0:
+                    split_model = SplitModel(pattern_list, with_filter, limit)
+                else:
+                    split_model = SplitModel(default_pattern_list, with_filter=with_filter, limit=limit)
+                # 插入目录前的部分
+                page_content = re.sub(r'(?<!。)\n+', '', page_content)
+                page_content = re.sub(r'(?<!.)\n+', '', page_content)
+                page_content = page_content.strip()
+                pre_toc = split_model.parse(page_content)
             chapters = pre_toc + chapters
         return chapters