From 57b15a8a7f833fe04e4e445753639fdad245ce8a Mon Sep 17 00:00:00 2001
From: CaptainB <bin@fit2cloud.com>
Date: Thu, 22 Aug 2024 16:52:32 +0800
Subject: [PATCH] =?UTF-8?q?feat:=20=E7=9F=A5=E8=AF=86=E5=BA=93=E6=94=AF?=
 =?UTF-8?q?=E6=8C=81=E4=B8=8A=E4=BC=A0csv=E5=92=8Cexcel?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

--story=1016154 --user=刘瑞斌 【知识库】-支持上传表格类型文档（Excel/CSV）按行分段 https://www.tapd.cn/57709429/s/1567910
---
 apps/common/handle/base_parse_table_handle.py |  19 +++++++
 .../impl/table/csv_parse_table_handle.py      |  34 ++++++++++++
 .../impl/table/excel_parse_table_handle.py    |  49 ++++++++++++++++++
 .../serializers/document_serializers.py       |  43 +++++++++++++++
 apps/dataset/template/MaxKB表格模板.csv   |  13 +++++
 apps/dataset/template/MaxKB表格模板.xlsx  | Bin 0 -> 9864 bytes
 apps/dataset/urls.py                          |   2 +
 apps/dataset/views/document.py                |  29 +++++++++++
 ui/src/api/document.ts                        |  27 ++++++++++
 ui/src/utils/utils.ts                         |   1 +
 .../views/dataset/UploadDocumentDataset.vue   |  15 ++++++
 .../dataset/component/UploadComponent.vue     |  43 ++++++++++++++-
 12 files changed, 274 insertions(+), 1 deletion(-)
 create mode 100644 apps/common/handle/base_parse_table_handle.py
 create mode 100644 apps/common/handle/impl/table/csv_parse_table_handle.py
 create mode 100644 apps/common/handle/impl/table/excel_parse_table_handle.py
 create mode 100644 apps/dataset/template/MaxKB表格模板.csv
 create mode 100644 apps/dataset/template/MaxKB表格模板.xlsx

diff --git a/apps/common/handle/base_parse_table_handle.py b/apps/common/handle/base_parse_table_handle.py
new file mode 100644
index 000000000..e5331e19f
--- /dev/null
+++ b/apps/common/handle/base_parse_table_handle.py
@@ -0,0 +1,19 @@
+# coding=utf-8
+"""
+    @project: maxkb
+    @Author：虎
+    @file： base_parse_qa_handle.py
+    @date：2024/5/21 14:56
+    @desc:
+"""
+from abc import ABC, abstractmethod
+
+
+class BaseParseTableHandle(ABC):
+    @abstractmethod
+    def support(self, file, get_buffer):
+        pass
+
+    @abstractmethod
+    def handle(self, file, get_buffer):
+        pass
diff --git a/apps/common/handle/impl/table/csv_parse_table_handle.py b/apps/common/handle/impl/table/csv_parse_table_handle.py
new file mode 100644
index 000000000..1104dd899
--- /dev/null
+++ b/apps/common/handle/impl/table/csv_parse_table_handle.py
@@ -0,0 +1,34 @@
+# coding=utf-8
+import logging
+
+from charset_normalizer import detect
+
+from common.handle.base_parse_table_handle import BaseParseTableHandle
+
+max_kb = logging.getLogger("max_kb")
+
+
+class CsvSplitHandle(BaseParseTableHandle):
+    def support(self, file, get_buffer):
+        file_name: str = file.name.lower()
+        if file_name.endswith(".csv"):
+            return True
+        return False
+
+    def handle(self, file, get_buffer):
+        buffer = get_buffer(file)
+        try:
+            content = buffer.decode(detect(buffer)['encoding'])
+        except BaseException as e:
+            max_kb.error(f'csv split handle error: {e}')
+            return [{'name': file.name, 'paragraphs': []}]
+
+        csv_model = content.split('\n')
+        paragraphs = []
+        # 第一行为标题
+        title = csv_model[0].split(',')
+        for row in csv_model[1:]:
+            line = '; '.join([f'{key}:{value}' for key, value in zip(title, row.split(','))])
+            paragraphs.append({'title': '', 'content': line})
+
+        return [{'name': file.name, 'paragraphs': paragraphs}]
diff --git a/apps/common/handle/impl/table/excel_parse_table_handle.py b/apps/common/handle/impl/table/excel_parse_table_handle.py
new file mode 100644
index 000000000..665e70ebc
--- /dev/null
+++ b/apps/common/handle/impl/table/excel_parse_table_handle.py
@@ -0,0 +1,49 @@
+# coding=utf-8
+import io
+import logging
+
+from openpyxl import load_workbook
+
+from common.handle.base_parse_table_handle import BaseParseTableHandle
+
+max_kb = logging.getLogger("max_kb")
+
+
+class ExcelSplitHandle(BaseParseTableHandle):
+    def support(self, file, get_buffer):
+        file_name: str = file.name.lower()
+        if file_name.endswith('.xls') or file_name.endswith('.xlsx'):
+            return True
+        return False
+
+    def handle(self, file, get_buffer):
+        buffer = get_buffer(file)
+        try:
+            wb = load_workbook(io.BytesIO(buffer))
+            result = []
+            for sheetname in wb.sheetnames:
+                paragraphs = []
+                ws = wb[sheetname]
+                rows = list(ws.rows)
+                if not rows: continue
+                ti = list(rows[0])
+                for r in list(rows[1:]):
+                    title = []
+                    l = []
+                    for i, c in enumerate(r):
+                        if not c.value:
+                            continue
+                        t = str(ti[i].value) if i < len(ti) else ""
+                        title.append(t)
+                        t += (": " if t else "") + str(c.value)
+                        l.append(t)
+                    l = "; ".join(l)
+                    if sheetname.lower().find("sheet") < 0:
+                        l += " ——" + sheetname
+                    paragraphs.append({'title': '', 'content': l})
+                result.append({'name': sheetname, 'paragraphs': paragraphs})
+
+        except BaseException as e:
+            max_kb.error(f'excel split handle error: {e}')
+            return [{'name': file.name, 'paragraphs': []}]
+        return result
diff --git a/apps/dataset/serializers/document_serializers.py b/apps/dataset/serializers/document_serializers.py
index 43d401428..0c29d348a 100644
--- a/apps/dataset/serializers/document_serializers.py
+++ b/apps/dataset/serializers/document_serializers.py
@@ -33,6 +33,8 @@ from common.handle.impl.pdf_split_handle import PdfSplitHandle
 from common.handle.impl.qa.csv_parse_qa_handle import CsvParseQAHandle
 from common.handle.impl.qa.xls_parse_qa_handle import XlsParseQAHandle
 from common.handle.impl.qa.xlsx_parse_qa_handle import XlsxParseQAHandle
+from common.handle.impl.table.csv_parse_table_handle import CsvSplitHandle
+from common.handle.impl.table.excel_parse_table_handle import ExcelSplitHandle
 from common.handle.impl.text_split_handle import TextSplitHandle
 from common.mixins.api_mixin import ApiMixin
 from common.util.common import post, flat_map
@@ -51,6 +53,7 @@ from embedding.task.embedding import embedding_by_document, delete_embedding_by_
 from smartdoc.conf import PROJECT_DIR
 
 parse_qa_handle_list = [XlsParseQAHandle(), CsvParseQAHandle(), XlsxParseQAHandle()]
+parse_table_handle_list = [CsvSplitHandle(), ExcelSplitHandle()]
 
 
 class FileBufferHandle:
@@ -152,6 +155,13 @@ class DocumentInstanceQASerializer(ApiMixin, serializers.Serializer):
                                                                        error_messages=ErrMessage.file("文件")))
 
 
+class DocumentInstanceTableSerializer(ApiMixin, serializers.Serializer):
+    file_list = serializers.ListSerializer(required=True,
+                                           error_messages=ErrMessage.list("文件列表"),
+                                           child=serializers.FileField(required=True,
+                                                                       error_messages=ErrMessage.file("文件")))
+
+
 class DocumentSerializers(ApiMixin, serializers.Serializer):
     class Export(ApiMixin, serializers.Serializer):
         type = serializers.CharField(required=True, validators=[
@@ -187,6 +197,23 @@ class DocumentSerializers(ApiMixin, serializers.Serializer):
                 return HttpResponse(content, status=200, headers={'Content-Type': 'application/vnd.ms-excel',
                                                                   'Content-Disposition': 'attachment; filename="excel_template.xlsx"'})
 
+        def table_export(self, with_valid=True):
+            if with_valid:
+                self.is_valid(raise_exception=True)
+
+            if self.data.get('type') == 'csv':
+                file = open(os.path.join(PROJECT_DIR, "apps", "dataset", 'template', 'MaxKB表格模板.csv'), "rb")
+                content = file.read()
+                file.close()
+                return HttpResponse(content, status=200, headers={'Content-Type': 'text/cxv',
+                                                                  'Content-Disposition': 'attachment; filename="csv_template.csv"'})
+            elif self.data.get('type') == 'excel':
+                file = open(os.path.join(PROJECT_DIR, "apps", "dataset", 'template', 'MaxKB表格模板.xlsx'), "rb")
+                content = file.read()
+                file.close()
+                return HttpResponse(content, status=200, headers={'Content-Type': 'application/vnd.ms-excel',
+                                                                  'Content-Disposition': 'attachment; filename="excel_template.xlsx"'})
+
     class Migrate(ApiMixin, serializers.Serializer):
         dataset_id = serializers.UUIDField(required=True,
                                            error_messages=ErrMessage.char(
@@ -633,6 +660,14 @@ class DocumentSerializers(ApiMixin, serializers.Serializer):
                     return parse_qa_handle.handle(file, get_buffer)
             raise AppApiException(500, '不支持的文件格式')
 
+        @staticmethod
+        def parse_table_file(file):
+            get_buffer = FileBufferHandle().get_buffer
+            for parse_table_handle in parse_table_handle_list:
+                if parse_table_handle.support(file, get_buffer):
+                    return parse_table_handle.handle(file, get_buffer)
+            raise AppApiException(500, '不支持的文件格式')
+
         def save_qa(self, instance: Dict, with_valid=True):
             if with_valid:
                 DocumentInstanceQASerializer(data=instance).is_valid(raise_exception=True)
@@ -641,6 +676,14 @@ class DocumentSerializers(ApiMixin, serializers.Serializer):
             document_list = flat_map([self.parse_qa_file(file) for file in file_list])
             return DocumentSerializers.Batch(data={'dataset_id': self.data.get('dataset_id')}).batch_save(document_list)
 
+        def save_table(self, instance: Dict, with_valid=True):
+            if with_valid:
+                DocumentInstanceTableSerializer(data=instance).is_valid(raise_exception=True)
+                self.is_valid(raise_exception=True)
+            file_list = instance.get('file_list')
+            document_list = flat_map([self.parse_table_file(file) for file in file_list])
+            return DocumentSerializers.Batch(data={'dataset_id': self.data.get('dataset_id')}).batch_save(document_list)
+
         @post(post_function=post_embedding)
         @transaction.atomic
         def save(self, instance: Dict, with_valid=False, **kwargs):
diff --git a/apps/dataset/template/MaxKB表格模板.csv b/apps/dataset/template/MaxKB表格模板.csv
new file mode 100644
index 000000000..7cf0f6306
--- /dev/null
+++ b/apps/dataset/template/MaxKB表格模板.csv
@@ -0,0 +1,13 @@
+职务,报销类型,一线城市报销标准（元）,二线城市报销标准（元）,三线城市报销标准（元）
+普通员工,住宿费,500,400,300
+部门主管,住宿费,600,500,400
+部门总监,住宿费,700,600,500
+区域总经理,住宿费,800,700,600
+普通员工,伙食费,50,40,30
+部门主管,伙食费,50,40,30
+部门总监,伙食费,50,40,30
+区域总经理,伙食费,50,40,30
+普通员工,交通费,50,40,30
+部门主管,交通费,50,40,30
+部门总监,交通费,50,40,30
+区域总经理,交通费,50,40,30
diff --git a/apps/dataset/template/MaxKB表格模板.xlsx b/apps/dataset/template/MaxKB表格模板.xlsx
new file mode 100644
index 0000000000000000000000000000000000000000..2bc94a5b80dab10b685f8e411f5bebfdd66636cb
GIT binary patch
literal 9864
zcma)iby!tR_ck5U5+V)K-O}A9UDDlgXplU#gd7^Ay9A^~LK^8t@*GM+y88otpYnZv
z@Ab_ev-h=U-D~ZA&&-<HvzD?vEZh^Q#}cNrBJz0sqaZ)rm^qp%100=PSd<^ca2_5Y
z{S<3{`K^)_8VZUN1_}!E?_$PIPRyS6b{TPB<Y3uwB+rBHF+VzTFj1(o(*=d|BkH;l
zb2!emD?9~#AH8B?b|t?+bU1NTzd_}|9xZ7Eco^=jw;m&9Ii{u6f`RqaMe)v3$oS^+
z_L{sc+L<viw8*rIbhfr+MX!-una|EWAr-K(1TYb})N8KMn-)><b)izB&b5lJ^gDzR
z&L<2OWpWHW)!T*8K)W>aFjQ`&!eGE!D~h$v`?`ze@$u3a7Cq($W*8K|A9@vuU7iJv
z^muE>kge6bkQxZTFzmNQeVJV#m}yv7*-8-kirYY_U`-cclfY$8uCn0E>_YeW=*}Gc
z$;$2J;qECjGlcPKt0K8`Q+WrLZ3|ZA2SRgD7gn@>M?nukhnI#-tUuJN&~`!b4n>}~
zTu_A>;;nZpjaynTuP+@A;s435zvN42p$B$#9@xeDJG-Wi0P{zBqd{MkI$1F#_GNCw
z*L+rZD#)~D>7lnH<YaIH8=KDR>%xf#xG8Ua-q)guI)OJczBSY^JbSA&HAbUNL#R&y
z%BO`HA|yZkAThFI{ywkIs}R175RHm2K>Y3YQ7$<2sHY>(9#xy=i)3Iv@p_?z&pulB
z?4cm-1_(SVy1=c;Mw;m!hPJwIhsYy8!BF1L@kO9hkd^xdR>r%aSeawv9cVJ1Py!sQ
zeO6hdyEE^queaY=X|anycSapbMU86pU}<Mp52cu%di!{H?k=QDWIugD0kpCn)$@jx
zfKoB1uS~4Vvo@V(G;V=31$S?_T>NmETN23}Fs2F_4)$%psMWEom?}tOvDG7A2Y&4N
zwMb|rSse2WnF4C4gNI$x)*Ww0NpF3tOhq%K?&DL`0E)8Q<eAV@@2<aF7PmtElkAjd
z?s0SvWMe##jr|X@-CSH9?H}nbh|`zvWW@>Hhrbu^^G)Nt)#jgz;nETPtgP(8K&99q
zmYzVJfqvMQ&Q|0Ji8dfv>g+tujIS^VBOzKd<EsE{`oO`I1UvB64L~MLL!Kf<RcNT4
z>-H0o6a<#7T+ugYozT+E%fb?gr4sE`5GUgkRws+w3p`^;uJtCc+3B$kbDMV;12Aof
z(!Zr6XTz(h_7+)vhMws)0K8@RIJRPDSs&XwwuSeN<_2l*i@PHFvS$}htW5AGwRs<n
zU&J_>J{bs8O#W-BYl~NykpPn#lDc5y_Dj1RZN%muz0XXGa*qZiH9pcKi{p(3&_rQL
zt$Gg8vFLz=!u&$pW;ouAT@)!hVSVy#bP-I~nFZ`!Suhll`Xxx<bQ^49u|!ZDrK1Qf
zZr}8;z&<kj@4f`~fmu(xpI+qO1<-#9csK%VU98N_U4QpDzy+G;iw|1h(4e63|4a5K
zgze|lNPZog&V$pt%&_Yr;>QAZl4X}ubps7L6lj*7UHyQj5rs{Gr%`D0jkQ0(Pmj8S
zf%r4u5nl&n3>D3ko;cL*KGAf<Iul<T<1_VA$!gflYReM(@NULg^?SY<*J3Vdt$3Du
zoA2yNx$hQp0sw=3auH9T$B`r`dw{u?B4dO=7r5Rv7wP0_HzGPyo3O@SOb?XAFBFxG
zBq%|}*sWYMDpHFZgB|#QThSypJ`QpM?=wqIM1M0lHvF30kRPTiO#*wE&B#X@L)=>0
zr#oGZea@i?|755FKwM7arkNUVW$}@Iyj3qf_FZG(O6J>-U}3YS7ntjgURSN>*M-M5
z-r20wNGz~l&u3z4wncbEo1^st_wB3Z*Wd?pwY@6~ikPmVNMm@!jNUQd<JIm*EtAlU
z_>X}s-fxUD^kEAg49>oFx`9!p1<51Efy_QPjtMdiFkSgVM^D|dNMp4bhl|7--;wnC
zfP9ZzP66H&GoXE)OT)P10lbP^NgU>hQ%}jffvoa-Al`Qr#QMpwR&y-_Jg!?g$J*cv
zrpWHb=M2V}joupMx+Gq>UK;Dg&`xWsJR}og?`Y#|UPi@+QPRI*3+`+o?Z6h+?WR+j
z<nntdK+pjZ3T8?211Ws<v2>MThCqZuY5YESt%Ap{5Bf3D&)Eb{XL!8xvVa(qs9)Ey
ziR<QT%g@2~z!IGJwo$5`^?*9Z@CzAm7@RjH_EOdtecC=?3i{+c^8(yUt5CZGPglW%
zNz;9A#zGRrnHOo^MEbGXK5)uuA26mp3sIHbpd-)|sD#q$U2W!B%=%@maDA1%?RKOK
zq(g-Qf#_+0uo|6AMNqMYL!oae^=we7QTS*V1BK`pgEQMjr3c#sOCg$g@2zVfCddu0
z;DkL9(nJTbSK#bxOR&h4lP$_{?Kh{~Hpk{f*dkZNt72DdZ<yrajtA6_Ob+{5n-9Kx
zoQt*DK#=Lcb@AG!VrDjz<(SBnm3wb0H=;dnY@r#VV*mMQS5EgWIG}XwhaZPM`kW1k
zVn2EsXg{aomu$nMtl%HARkL}E*4Q6IYnts%x`w~&yhn0qUaJ63TEgW9?;W6B>5Cke
zWJ1H~z|IMVDdwSs??cfq!mD5Dw_h^Bq+bUtdSU0G@Hk*k6QZabb3EM4`5z5;Y&p0i
z47IfH31j6I&A<~izzKq@x>l1|r@Ajy1Nb?LV}RQNWA8X_rRH2zJPc%Cv3hQ@K=S5G
zCo;Uj<#9z}mOT)wG9}W3^Pr9~ijyywUHGJ=;8~BjdK$XOiK4svkJrfmw|{xut33D@
zS1WUS^WXL=!B^L)7w}L}tq*SF(ZT;I_EY$$)7aG+iY4U2X?t-f9JR5uM>*8%K4n*T
zxh>`~uMuCrJtq4;ig3i!jK6sZtxlSfQbJVkU8A#zNP*^x>Rnn01+D5meCBR{ml9Df
zUU0UJ5=Z8;j~{8<`Ar;y7AYksPq!Xs5_iXVH!Z3YpV<qL5&>k_@4UkSA1PuSE0?i5
z+9^iT)9wED{6n_j^Hn%RvaCqKNhDLcnwAV=wqRpQ=8vdF2lj)WL6o15`iH~wI7ZV)
zGXOYK?oTDgS!GmUZ1yuxI&MRT(c!yGaBPfZyk1#%F|?1><_o=TvQi;=PceridLEu}
zdI<X*0S6hGl)yOOA2NKGNL-tYqS7Qf4cgf@WKKqjDl`|Q$wG~kWk|Fsa97@(fuf&r
z&hRdpF2TLxghC4g7gl$VHNCE^P2-)0NtKS>8+K?~a63r4legve7#IQ;{{VCKZB~{;
zcBU+vS5~<Cz-6`<@+u5Annbq*W(Rd#Z;EuSHTcmDfF^R|TLgTOU+a{(q@TTG%L_B`
zY*E`Lsdc${3U5bSTu_K#qwXD%lzkoL0Vxwxp_C=)^9t>?LaMbVmqU0DCvEmro(plV
zv+v3wG}OdiM)6rVIZdivFsTL76XTN8spEYEL4ShJ-gj#^kecH#;Y?v~*SiD6ya6l$
ziLEZYH<v?2{%=lI4z4FE4TbI&VxMu}CGQL0T^5bph|uO1NV2qg9_`f7u(aN+H8_&`
zfDwt%>^!q5wc%bK=s3Nl0;i)#+47Pc%*1c@hVwk7MOY-6B7V-_PUs@x+eqyW^avBb
zKY*?r+T*W3GZBjK;y6C#aSrH>8lzrag3{A+(ZSjq8ISM>2-P?@VDg;~EsB-I&kZvI
zKghnJf6eATD3C*&XceT!2zwf>$ad!G5sOLlq1UW0)yVYu!V6JsEJv9uGccw#ovX~#
zzJUcxvi!M-p~H;q{^F4xZXvfgWz2BzsD0Dz;6s8m*@O%AGZnGj08;Yj*HJ%)E=POZ
zf`b)av6_oo28SH<FRXzp6Hj(Vg>I~c3y-@b0kVZc8Pefwgx@SCG^0R+VY_jh_0^=|
zbjmmnYvvWWcd!EU6x~Z?tH*Vjd{*}SOv;InugHEJM7BK;<pc0S;|ObO;U#`i-i+$%
zR%A#+xj6TE2z7tX{e=Ly>$N}_!;m-jp8ss_yj4=BQE}uc)wX_^-%L(tL#w!B>AHU_
z3(IRZSL?dxob&cAmr6H2`)oP2G~aPZky~!@s;;6wu@(oPh+;oOtY!?A*67Jz{G!N1
zZ$?cq!-*x@14o3>8C^Pw$S3a*)4SoRQ>v9`#TF<8>InA!6d_c?te!L&;gV-ynhS!K
zM*$kWz-&Lu!AjbZB2hvNUx{O9ORl=D$}*fN@(e}EVooS?!nu!aEU>BuIi<~Q6<IqW
zc;L{B8M8|0yddffL?wwwU7?(`fFDEFGexC(>E(;vYNpr6{j|FOQz1x)_$dV&2CXas
z<U@a)EUF@x#uEMNozfT&T$z<06OZ2Hk2d9(RIe64t2hKEGh-ZjMum-A6msP@8W|jG
zc3Oy}8wl{BAh`B8l4sk{(NE!oNlUaJwh=&QOrq#%X)t)5vP2L$QSU!}er}TRC9yLp
zCd3Nwg}8o-iMaVQ>Mc&~>7X(Lt=dZ4OlN^YOr%EMV1^FZ_3$*zJq+ms0G+>pioK>!
z-9bb7d%aVwK|)B#XSWRvfdH4;(*44frP-B^Lv!ZRQ`I^d$t{4HfdLKf*;Ga(6i<<u
zxg|`HN<u*3PT#W)y8&Q&@_TJygzgi20=^vs728lW!kOM(v9E-U=OC#u^F)gYEO=0_
zomr^7_u^OE4=JztHwLRV85v5Lwo-5hASP^!9qt3AlHtau4HfL~;pW;sqojDwMY)_-
zVHpqQNhzi(J_|M4ejY1LWOj#fPtby?e?Q2ksPh>q-+T@*$z=~AbNYf-X**ZH+bc(D
zgHp%fe7$22J*%8wI@^TPVtYIczow~!BEH&v_NqqmzQX7pz8&E_XP_4H)lI5^l~@FL
zb`ST@KY{JoCIdB8C@4DvD5!^B=Ho));_78*?((>=T-4i*otJrjAJcVjR1ky_K3VB?
zxU`qF_(PYkL=2Y+30Zlaa`;0C_IIM92A|D*u}U0tTx49@_ev{`YILNVFo-LqtKR1$
zoLhS|ckr31)q)&{v(61(hXz_UM3$LeOMb@!$E{xL#rv`i?~T^3fEAJ6Iwdm0*{dFl
zU%qIrH@_^msiBA#^BJuZ^atB%#AK+fe?8M``^ftwR`B~(&T8;ebvAr^4fIZ@M)HBY
z;hc#E>EzoSjsQb%ztINq3j(6PJY(?eA{NEA&&NVqw<gDC;FA*Lyk$C7*=2M;0TNAq
zKYyz*hxyZm1N<3{xT}ol84LtJqXt3DQ(D&5Gzgo9+wv~lUEh94at{5s{nLe*c#v|%
zK%mQj<TM+@d^*s1c{}Vy$!aVjM6+AQKz1#8rujg%LPlaMX&Ii)L2mgSv+waZ)q3Fx
zf%lzp;_cb#%O1ZA-NZNGr^}z{G}cmZUsrO!W+A^?eiqvYJ3xJkJ-~JP!b?R4$yYNx
ze8=2eO86?M?DlKo8>;AUS85$5JKc3fe$gj`H-ggmyhnRy79*s}G`94f&s)AN5w%b)
zeiXE#raw~dJ--oo0=)}1zp*enCss899F=_^Apxs~xw8gIi6Obcwsa~|(tq=SuG%b6
z@O*baU#vc;*m=qrH=nZJvx!Gk+d!XG&@Mb6CN`*{ELyNp_A<;E8=u=*<E=@`EPDm<
zm}A^rosJ8)$`FzIiP-1KTxDk+2kTP;yeo#TkJ-mOr#1tcv8$nq4GN}!1$<MfiZ@?A
z42TvuY-#4jL^T&vzbnw4?86fG_2MzMd(KwtPT=!ZjPQ~Ojp@cQj(X^DdAru91Wvsw
z;yW!u2De+a!+^0xJsCD*E$$k7*-TQU&f13%7{mNY6XQUBnirdhO_|BA{%*vlQQ)C7
zYS(UY8hq^o$;eDcB8(hE&Hxoy8vr}q%c2ueBhoU0VY+T4sn+lAaX5%f3&N46D4eI7
zD2Mja!i~TWE^8v^pJRNC*k3rQK-j(NbPJm(4AS8J%OG`X;t%yy>Hh1A+o=N>GfvH3
zTmKn7ZuGpQ80Qv=MjE^PQAwcTI-rwts8H9DJH0Tctn9lX>|Nm!=MF)54kKZy^{t!H
za`99e*VH7c+c$Eul{N}4+r-mPsgO3jmmD`UD;5h|I)1hvD!&b(-q$t$eEc%${c&#g
zn08J2^E+E-j!u6jhn{$m0mmU$t+wff!2`p$KO2rCKS5QMS8M)K6ME0^={W|wvG)8K
zkhwficI*?n?lyU4{Y$~3XB|B3P8jH8mYW!3#p4*_+MIJsKR%rW3RekwCYVNEV5@Y@
zJ!g!!*XR(}-iZ7jm?ygZA@oie=AFt|xU}dKMhv_nGH4`{0sVJDw7iDW$|7bNDe}u(
zpH}^H-;767Q;WOn5xmV$#ka~g;Y2Mko~-4o_EI@D5tLxgkKd8h?^DKcAs1I34MFXu
zaLvc=lyozrjoj+P#F>oC@zf!1zQa!n!xktkY?IU-E|A^fO_s>s(o4(zG;9qr5lVvJ
zaq!F}5&PyfS5Q^pwCmeCtam8Dmg|J_rFqqJ$qmP%ZCRe8F;MJ6C00i$EE>(q8n<FJ
zPdcSIibS@N+OYnm{fHp`Nd`3IET8D6`zXK>v6T-ReNwt5)duY|nNX!cKM8t^DawWE
z-Wp-JNZalTszlp<7hqIt21eMGk9?^(C%~J9iQeFK8)mLpXx4r?03Ub%tPxX+>i_|S
zLQX%S9XGntBX@JZ>)f^rhqq)dF&|mC-P0`-MbXg>N<j`cav;Ejp65|FpG`rrlt<Ez
zQdHUeq|F_I+=W8THW;GM8eyy}P0JR*gVCU8r_JnOES0<VG*_L$MhCN7&ZLtOnOp!T
z$q9aufm*jjK?I(EJm85jqx9Ok7#24ZbtVFDu`*`KG!0Jt5^v754IMQQ=v-VtCiY=O
z)d<U2JcKOeMM7PNQIW;EKzNWjR-7#0Kt?~ERKY!2n9sBmF@6SIoiD~-f<_`wPZ`e-
zu6{3OqfjrBx(XwMT$2A@wSzf|Qm%ACyHFkNeIjUwEJ0QdJy{RHT#=wx&m5mX#5|Dh
zsjZj9eeBf8Xul1~XSCllc8;KA_E!&E)uu`Woi=LDEp*E2JXDa6wM}91kJYiKwF?G~
z`9t;naD0PA>FYx^z3TnP!yRYe-6m;^<h6bn!5Z$$3|nghzU>T;Xp$=2N@@<5?3(bm
zJ2Yw<W)&pFx6D<8F{kiosVzu1O2J(uPx*$LG*Sh8y{|5a8#BnpWo=^hG0sk~(2UQe
zBEfeV-$(Xd`5hkDocj^Rle4O_130;to?spF-kz`aPh|DLAw5fg%9=@8KVFH=f{ou=
z#-=U~6R|#k0Cm!kU(919kajO9PZuV53STo)Va4W%@+ORfhsNmA?iU1o4lYk-Voii-
z^Hc}`3*J4b@vnr01TR;9K>FXFFY#s+NH>L!uQI)_5h%L9+WFSvVH!&NLk%XS8tY=`
zq~DOb&CBEJ+GpbY9&aK?WN<VNyP5-}B;4q61|c<hB0$*n4r$2$>f!~agZDMt2%6$K
z#}6B^H<<2Eaj0av)TmL#b7m+gMARg@OeJtXF;N8NVqsxmXlyowBSlI{2ndmFMkw50
z0{a)?i0Lsf!Z)5%o(m~99)t%#hlQ`Ljj$+@P*Vy}XP>i>rTV%0Top;jU$><%v~b*l
zYl4${L#SPG0^da9QPK4Dr&TGwy7zMQzHVdV7x2qvrVeAWgckNXVWb<8MpHzJ=%=BP
z^&&w_!$h-e@ISlRiVqI%4WjPqSgU#U>fRZVRmkh;;78~AEB{Nj5GL9$siNU1ikE5X
ziGVUlHH`1mz-Q5yQwJAgAr~bhm7%>jW^RF;Fm53ClEe0(iBCaK*egKlz-9{^)-~No
zopv+b5Y5is7y9@E>=j~Vfiwt*pYUU>%P9j92irBsx-1JdthfX$+{i6B9-1L>Whim!
z*0{Q8v3la+deEAnzS85A5dJ6w1cq7ylA5Yj1!cvb2!L^HL3Wx#8Rb;Kb8Ricj!oLC
zCl|qMgszF$u-xL|-xSJ6Z9E4F#0D)M?Z248q<A?&UrSJhQI>$&1XBjpMNuZAVF&-8
zcGG(5F1ufPZN=7pK^j8i<a^mh>-I^;cDqM=zp!i=__O+0ihOM0<xP9%68=fq7@~;4
zj^twu*QI4!mxuDvN&c0-8}4FscWIp+Jv;VrMpf!J?yN?{p!g_{dK&3~NR&twQo~z#
zA1=U$@xHF72eBh~0QQKzMj6@Zes*`efI(9QqDn8Cl*W#&iKhz?f)C~3J`s1wMSFV=
zX`>^wm>tW#g4p;I`0ssYy2vh#Z|jzM7ZX|a<tAbmr4$aIZ1>hPB5Z2~A0+osrw&EH
zqsQo{Qq8P=QSed)J&T;G#vAoJ7EO^Dp$L}@aS7D<%H6M9bpnI;s@#fy#p`IwhTvKc
zOl1-t<PWKhe=X0f-o_ZpJnk@JN;PSdy-b`t|K{+r)l7-FM@_%TGPdPF>S$FnM92_@
zs1cyi)-)k1eQt#LEU|TC=}25}>Y*imTvs*C{P|GccXdGtw-uoD7{nPrw%x6h(Da!S
z!Ck(^-tKg|ZkaBJLY~c!{ar1OZMm9KS|*n^3%aC|EyqsnAo`~LFTNk0Zdki!idwuj
zeb6`1<=#P_kqBBO3I|^&W`Ozc(q)|mEQaVwu0|zI<X6c7np>HKQ5{M9(brDqE|h2_
zX_i=??xg}GTIPwps3PxojKSy`!H6W|>*JU?7JV`^Y2($JF*j*wFvt_tev<KrlhwK{
z#?$E)7Ih9fJ{oxiGiCf0NxEF;9_qHQ?73|#G6Z@HiQze>-Yph43Sg>c1`SQ~cGocK
zOtx_ps=F*krRtM5Ot5cw`>eU%h-%5aTwX<@TIK#ov7oLL7v!61F5aQ65JAKC5h?5}
z(6lLLrp2a#*fF81Q;o(YqSeyJw2@2Dfz5MHs!-kPAVq>L++$e9(+#dcw7rNET@Q)k
zx*5&Iae2H{(Y!&2%e6?8%eL7EQ%$$o$0w=8N^Zv<isn<O@2U*fu*X!B$ye&87~&Y7
zvYwtkAj%k!_CN~ygwMA@!?;yXvcc4-sGp463WtF_7G%59aF6lNzmIVKbtt}vI0V&0
z9O5z1_W1W<WehMkQ*#AaJ6Qhw2}yhit96QChVBRLW1cy@+!a*^oseC?T|wpO%!_<1
z`Bt&Xq-$r7HXW2*VT8kUqK*k?`gCi+EPi8Bi<OE7n?-Q=eyDelRqRw@rcur8=~O!f
zZL()OxgG}&?u?|9t7lamERUFZd0$#!9MUirw1%~dI9V{D<ZT2JK?3(V8D$;9xVb8O
z8dA~PEUQ~;VS!FqzBPpoIa+Y>hc8b?9L4oD*}yhZC~8>h?$9$G+p;LTmZD8Cl!3({
zk%I1!p{q)md=QkDY?9QiEWojwRLG~bzh<<~#Buoj>kR`7-!b`QH~s-|ntolfXeF8F
zSz6Hi>sR4YHC+TXkQdi!IEDA9vv#c)H^abuK}C|noSoj9j@##N8HN1_HUuqv2Awqr
zNxM8U1kiyhM;kXBEGJ77RQFIRtvXk~1=t*Sg4t;wxL$mW`~2eiG4NpG=xF;hh7dRK
z7+#Y+m$?CQ`Pk6-7ON}LlZ&_l>7mW-S7c46V*A`>FMX&Zo-pbRO-Orum`ShU`hhJz
zxrF;p5suY0QEQI)iKmb6XC0WgvV2t09@_2Cq-GOlw04HWR>RJvrJ$anSgG1*z3(j*
zWmxTM*tAl;HZsp;C-Ss|mBS_MGD8~)(RN~}1IAT7xi`M}G>yA-y=^vDfc12=PvXcl
zZyss=(=@{Qs-!~wZcT0ewOzpT=M%tjWDRIFdf%|NXx=I(n|-CZ(Gz!i0C;^Qu31FV
zf7ihDng6wKKi_V`{!*QsBJ`yy(vi~-!5ksZ2)iM?rcJLK3{%!1ZE-UP<;(H(__$Ty
z1rX-fPC2!w_4I^D$(D(nQ_NLDsBde&31ndqCTG#LLI2;!u?P>O8UoDievjh#@VI}z
ze`s5N8008_$}m4lR)9w2x>zxL9>?}ZtD*-k);CuciXVz*z5yu;_oLL<Af4UT7Eu+(
z$xn!}sh1n+%Wuq@2^Yx>*a~Al2f3*Pi8%JTx2hbx@zh=nk|}SQg7s2&>VRwBJ~Fuu
z25tx>%rR5O>Az7OWe?-0i?<%zQdbtq;^&eq;uSW10pxCRP<HrwB-N8eqO2&;y+j}G
z(~RKE6Y}}e(Xn)A7%Z5YCqBZ#u%;fD;b!*^HwySBZ?+BdR1yJ!cLd-jG_da>7gk<j
z!GtEM7m}hDxv;L+=FFJdtEWU7NtHcxDKatfz2i&V*z4K>8NOhu+?{($_TH|wBrhQ@
zLm9vkQ<=yA&E<cNw*QUJ^@Cje-3J;!J<v(;aDDI@zr_ANn*U(erjr%5XCK%C9P@P^
zk7kp~FzCsisqld^W$?E$L6m=;-jLOoqm%8LtcRKv+_q0MFu&NeKZ!wYW6G**#!HLJ
ze8oM9(2Bl~!IB+re^CDx8ZAnuieZ1ho^)0xNq({xmd+X3EZdmGppJUR$dT?XEW(yL
z+i8+yp)STWv3<06{Pz*Q+tUC5q~vT#WbT?qIn4Rp+I@?uMjiTc?)4tqK_Zf3wBn{P
zZ@(vH5BF3b0^YhpxTs;6mmY3tuabdFVaiFx#ZcNIBYy|4FUXtk?Q7KTG}NM$m`Spu
zL1(%+J9)lm_$?RC>%X1<7a!`nSUya2w1*hL<N5z<aYqMNa|c&Lb+3mNOaF1gS0oH5
z!LZ?ko>RAW=D+4pb25%HHiDR!P_DpEp0#tHBxMF2oMqA(!H5P%rOWc|Ubfxew4h2c
z*hW%GOfF588=h)ID|r_zmRpd<Cm&_vrUa{Xcp`GWhW$8paAm`)gV-KaN<3XIODEtI
z^AVb%>Ij->NWr(3VvKdz6BEE}(eCKe!q40y4^~apMdKzC_@d6JK%c2~;<HK_B&sRk
zfLC9h7J(U+L=mUf>bf1E>VS-^vB5RF8Sv5!c$gRLzTweczZabwp)1OU$JX*hp1bh~
zK;$c;6k6J*5i@%-QIaG=fFh5jK3ZQck{C!yPK_p<d2c393ISX&=ha`CtiZ%KBy(U8
zB<XA@Tzqx1lYl$Tq{xu@q0oydN^1uN;+o1l+bbq|+j1H=jc~Upf+r}d<XRH&-LcID
zN@oM^V4(N1==^xNs<W2v^y`z|Veoe*u{qz;t)<h}xcWB6&&OYmO}TFnl;xpeaDFas
zzp_Yv@0o|rfr5r2d#EQKs(<OHUkd&`fc)rkewD|B6n>Jw9MC_F{_cVvF~5u&{)zcH
zW&W43$2s|{JQ{l}e@m44r@h}(Wgdlp*`xV8>_3S!zf<&kD#%~xkcT1tr_nzWLw<+<
zp4{*k{OG}D{009r)!~1A^kWSFS9$zs1-PI7=6?bH$x;~U-yGEMFZ#PDd$jY5r4N6H
z{g+?+UC-~ksK4}h6aM?2>URylp924-;pQPn;U8zh|Nq}!j`S1yM|kp|Bjoo0<zE&j
z{to*qT>1Me|Gu61OTh-wPrHAo?SH-WV-m)%^4P=nzk2u){AWtWKi~ZKq>M-GuU<?2
bFYI3_8p`tUKPM~JLvj=1gPbkJBkunJ?)D=_

literal 0
HcmV?d00001

diff --git a/apps/dataset/urls.py b/apps/dataset/urls.py
index 8162a13ab..026492d18 100644
--- a/apps/dataset/urls.py
+++ b/apps/dataset/urls.py
@@ -16,8 +16,10 @@ urlpatterns = [
     path('dataset/<str:dataset_id>/hit_test', views.Dataset.HitTest.as_view()),
     path('dataset/<str:dataset_id>/document', views.Document.as_view(), name='document'),
     path('dataset/document/template/export', views.Template.as_view()),
+    path('dataset/document/table_template/export', views.TableTemplate.as_view()),
     path('dataset/<str:dataset_id>/document/web', views.WebDocument.as_view()),
     path('dataset/<str:dataset_id>/document/qa', views.QaDocument.as_view()),
+    path('dataset/<str:dataset_id>/document/table', views.TableDocument.as_view()),
     path('dataset/<str:dataset_id>/document/_bach', views.Document.Batch.as_view()),
     path('dataset/<str:dataset_id>/document/batch_hit_handling', views.Document.BatchEditHitHandling.as_view()),
     path('dataset/<str:dataset_id>/document/<int:current_page>/<int:page_size>', views.Document.Page.as_view()),
diff --git a/apps/dataset/views/document.py b/apps/dataset/views/document.py
index f522d01ce..1988ca75a 100644
--- a/apps/dataset/views/document.py
+++ b/apps/dataset/views/document.py
@@ -33,6 +33,17 @@ class Template(APIView):
     def get(self, request: Request):
         return DocumentSerializers.Export(data={'type': request.query_params.get('type')}).export(with_valid=True)
 
+class TableTemplate(APIView):
+    authentication_classes = [TokenAuth]
+
+    @action(methods=['GET'], detail=False)
+    @swagger_auto_schema(operation_summary="获取表格模版",
+                         operation_id="获取表格模版",
+                         manual_parameters=DocumentSerializers.Export.get_request_params_api(),
+                         tags=["知识库/文档"])
+    def get(self, request: Request):
+        return DocumentSerializers.Export(data={'type': request.query_params.get('type')}).table_export(with_valid=True)
+
 
 class WebDocument(APIView):
     authentication_classes = [TokenAuth]
@@ -71,6 +82,24 @@ class QaDocument(APIView):
                 {'file_list': request.FILES.getlist('file')},
                 with_valid=True))
 
+class TableDocument(APIView):
+    authentication_classes = [TokenAuth]
+    parser_classes = [MultiPartParser]
+
+    @action(methods=['POST'], detail=False)
+    @swagger_auto_schema(operation_summary="导入表格并创建文档",
+                         operation_id="导入表格并创建文档",
+                         manual_parameters=DocumentWebInstanceSerializer.get_request_params_api(),
+                         responses=result.get_api_response(DocumentSerializers.Create.get_response_body_api()),
+                         tags=["知识库/文档"])
+    @has_permissions(
+        lambda r, k: Permission(group=Group.DATASET, operate=Operate.MANAGE,
+                                dynamic_tag=k.get('dataset_id')))
+    def post(self, request: Request, dataset_id: str):
+        return result.success(
+            DocumentSerializers.Create(data={'dataset_id': dataset_id}).save_table(
+                {'file_list': request.FILES.getlist('file')},
+                with_valid=True))
 
 class Document(APIView):
     authentication_classes = [TokenAuth]
diff --git a/ui/src/api/document.ts b/ui/src/api/document.ts
index 5bf294100..0653f2d40 100644
--- a/ui/src/api/document.ts
+++ b/ui/src/api/document.ts
@@ -211,6 +211,19 @@ const postQADocument: (
   return post(`${prefix}/${dataset_id}/document/qa`, data, undefined, loading)
 }
 
+/**
+ * 导入表格
+ * @param 参数
+ * file
+ */
+const postTableDocument: (
+  dataset_id: string,
+  data: any,
+  loading?: Ref<boolean>
+) => Promise<Result<any>> = (dataset_id, data, loading) => {
+  return post(`${prefix}/${dataset_id}/document/table`, data, undefined, loading)
+}
+
 /**
  * 批量迁移文档
  * @param 参数 dataset_id,target_dataset_id,
@@ -256,6 +269,18 @@ const exportQATemplate: (fileName: string, type: string, loading?: Ref<boolean>)
   return exportExcel(fileName, `${prefix}/document/template/export`, { type }, loading)
 }
 
+/**
+ * 获得table模版
+ * @param 参数 fileName,type,
+ */
+const exportTableTemplate: (fileName: string, type: string, loading?: Ref<boolean>) => void = (
+  fileName,
+  type,
+  loading
+) => {
+  return exportExcel(fileName, `${prefix}/document/table_template/export`, { type }, loading)
+}
+
 /**
  * 导出文档
  * @param document_name 文档名称
@@ -295,6 +320,8 @@ export default {
   putMigrateMulDocument,
   batchEditHitHandling,
   exportQATemplate,
+  exportTableTemplate,
   postQADocument,
+  postTableDocument,
   exportDocument
 }
diff --git a/ui/src/utils/utils.ts b/ui/src/utils/utils.ts
index 9b30135fb..b2d77d834 100644
--- a/ui/src/utils/utils.ts
+++ b/ui/src/utils/utils.ts
@@ -39,6 +39,7 @@ export function fileType(name: string) {
 */
 const typeList: any = {
   txt: ['txt', 'pdf', 'docx', 'csv', 'md', 'html', 'PDF'],
+  table: ['xlsx', 'xls', 'csv'],
   QA: ['xlsx', 'csv', 'xls']
 }
 
diff --git a/ui/src/views/dataset/UploadDocumentDataset.vue b/ui/src/views/dataset/UploadDocumentDataset.vue
index 370451a54..c434ea2fc 100644
--- a/ui/src/views/dataset/UploadDocumentDataset.vue
+++ b/ui/src/views/dataset/UploadDocumentDataset.vue
@@ -78,6 +78,21 @@ async function next() {
           router.push({ path: `/dataset/${id}/document` })
         })
       }
+    } else if (documentsType.value === 'table') {
+      let fd = new FormData()
+      documentsFiles.value.forEach((item: any) => {
+        if (item?.raw) {
+          fd.append('file', item?.raw)
+        }
+      })
+      if (id) {
+        // table文档上传
+        documentApi.postTableDocument(id as string, fd, loading).then((res) => {
+          MsgSuccess('提交成功')
+          clearStore()
+          router.push({ path: `/dataset/${id}/document` })
+        })
+      }
     } else {
       if (active.value++ > 2) active.value = 0
     }
diff --git a/ui/src/views/dataset/component/UploadComponent.vue b/ui/src/views/dataset/component/UploadComponent.vue
index d51aff263..305ae1ca4 100644
--- a/ui/src/views/dataset/component/UploadComponent.vue
+++ b/ui/src/views/dataset/component/UploadComponent.vue
@@ -10,6 +10,7 @@
     <el-form-item>
       <el-radio-group v-model="form.fileType" @change="radioChange">
         <el-radio value="txt">文本文件</el-radio>
+        <el-radio value="table">表格</el-radio>
         <el-radio value="QA">QA 问答对</el-radio>
       </el-radio-group>
     </el-form-item>
@@ -48,6 +49,42 @@
       <el-divider direction="vertical" />
       <el-button type="primary" link @click="downloadTemplate('csv')"> 下载 CSV 模板 </el-button>
     </el-form-item>
+    <el-form-item prop="fileList" v-else-if="form.fileType === 'table'">
+      <el-upload
+        :webkitdirectory="false"
+        class="w-full mb-4"
+        drag
+        multiple
+        v-model:file-list="form.fileList"
+        action="#"
+        :auto-upload="false"
+        :show-file-list="false"
+        accept=".xlsx, .xls, .csv"
+        :limit="50"
+        :on-exceed="onExceed"
+        :on-change="fileHandleChange"
+        @click.prevent="handlePreview(false)"
+      >
+        <img src="@/assets/upload-icon.svg" alt="" />
+        <div class="el-upload__text">
+          <p>
+            拖拽文件至此上传或
+            <em class="hover" @click.prevent="handlePreview(false)"> 选择文件 </em>
+            <em class="hover" @click.prevent="handlePreview(true)"> 选择文件夹 </em>
+          </p>
+          <div class="upload__decoration">
+            <p>当前支持 EXCEL和CSV 格式文件。</p>
+            <p>第一行必须是列标题，且列标题必须是有意义的术语，表中每条记录将作为一个分段。</p>
+            <p>每次最多上传50个文档，每个文档最大不能超过100MB。</p>
+          </div>
+        </div>
+      </el-upload>
+      <el-button type="primary" link @click="downloadTableTemplate('excel')">
+        下载 Excel 模板
+      </el-button>
+      <el-divider direction="vertical" />
+      <el-button type="primary" link @click="downloadTableTemplate('csv')"> 下载 CSV 模板 </el-button>
+    </el-form-item>
     <el-form-item prop="fileList" v-else>
       <el-upload
         :webkitdirectory="false"
@@ -73,7 +110,7 @@
           </p>
           <div class="upload__decoration">
             <p>
-              支持格式：TXT、Markdown、PDF、DOCX、HTML 每次最多上传50个文件，每个文件不超过 100MB
+              支持格式：TXT、Markdown、PDF、DOCX、HTML、Excel、CSV 每次最多上传50个文件，每个文件不超过 100MB
             </p>
             <p>若使用【高级分段】建议上传前规范文件的分段标识</p>
           </div>
@@ -133,6 +170,10 @@ function downloadTemplate(type: string) {
   documentApi.exportQATemplate(`${type}模版.${type == 'csv' ? type : 'xlsx'}`, type)
 }
 
+function downloadTableTemplate(type: string) {
+  documentApi.exportTableTemplate(`${type}模版.${type == 'csv' ? type : 'xlsx'}`, type)
+}
+
 function radioChange() {
   form.value.fileList = []
 }