zdocument_text 是压缩包/文档/图片转文本的工具, 是 ZSPAM 的一个模块
解出的文本不关注样式, 不适合展示, 适用于机器学习, 分词等 帮助文档
本系统会递归解析文档,并转为文本
支持格式:
chm, clda, csv, docm, doc, docx, dot, dotx, dps, dpt, eml, ett, et, html, odp, ods, odt, ofd, pdf, pot, pps, pptm, ppt, pptx, rtf, tnef, msg, vcf, wps, wpt, xlam, xla, xlsb, xlsm, xls, xlsx, xlt, xps
bmp, gif, jpeg, jpg, png, svg, tiff, tif, wmf/emf/emz, ppm/pbm/pgm
7z, bz, bz2, arj, cab, gz, jar, lha, lz, lzh, lzs, pma, rar, tar, tb2, tbz, tbz2, tgz, tlz, txz, xz, zip, zipx, z, ace, iso, img, udf, deb, cpio, rpm