基于内容的垃圾邮件识别 --- 效果演示

zspam是一款基于内容的邮件打分系统,用于识别垃圾邮件/钓鱼邮件. 最新版本 5.31

能处理各种类型的附件, 包括: 30多种压缩包, 40多种文档, 20多种图片(OCR, 二维码)

支持中文简体,繁体,日文,韩文,越南文,泰文,希伯来文,波斯文,拉丁等文字. 帮助文档

点击上传, 或拖拽到这里, eml格式, 小于1M

文件类型必须是EML格式, 不支持outlook的MSG格式, 也不支持其他类型的文件

本系统会给出至少一个得分和其他信息

ATT_COUNT 附件个数(不包含内嵌图片附件)
MAILER 邮件头:X-Mailer
MIME_ONLY_HTML 仅有 HTML
MIME_ONLY_PLAIN 仅有 PLAIN
OUTLOOK_ONLY_HTM OUTLOOK, 仅有 HTML, 基本可以判垃圾
OUTLOOK_ONLY_PLAIN OUTLOOK, 仅有 PLAIN, 基本可以判垃圾
HEADER_REFERENCES_COUNT References 里条目数
FROM_DOMAIN_NONE 发件人没域名
FROM_MAIL_EMPTY 发件人地址为空, 或不存在 From:
FROM_DOMAIN_IN_MESSAGE_ID From的域名出现在 Message-id 中
FROM_DOMAIN_NOT_IN_MESSAGE_ID From的域名没出现在 Message-id 中
FROM_DOMAIN_NOT_IN_TO_DOMAIN From的域名出现在 to 的域名 中
FROM_DOMAIN_NOT_IN_TO_DOMAIN FROM_DOMAIN 没出现在 TO_DOMAIN
FROM_DOMAIN_NE_SENDER_DOMAIN From 的域名 和 X-Sender的域名不同
FROM_DOMAIN_EQ_SENDER_DOMAIN From 的域名 和 X-Sender的域名相同
FROM_IN_TO 发件人在收件人中
FROM_IN_TO_NAME 发件人的地址在收件人的名字中
FROM_MAIL_IN_BODY 发件人地址在正文中
FROM_MAIL_NOT_IN_BODY 发件人地址不在正文中
FROM_NAME_EMPTY 发件人没名字, 或不存在 From:
FROM_NAME_NO_EQ (原始)发件人名没有 =?
FROM_NAME_DOMAIN_NE_FROM_DOMAIN 发件人名字的域名 和 发件人的域名不同
FROM_NAME_DOMAIN_EQ_FROM_DOMAIN/FROM_NAME_NE_FROM 发件人名字的域名 和 发件人的域名相同/同时/发件人的名字和发件人不同
FROM_NE_RECEIPT From 和 Disposition-Notification-To 不同
FROM_EQ_RECEIPT From 和 Disposition-Notification-To 相同
FROM_NE_REPLY_TO From和 Replay-To 不同
FROM_EQ_REPLY_TO From和 Replay-To 相同
RECEIPT_NE_REPLY_TO Disposition-Notification-To 和 Reply-To 不同
RECEIPT_EQ_REPLY_TO Disposition-Notification-To 和 Reply-To 相同
SENDER_NE_RECEIPT X-Sender 和 Disposition-Notification-To 不同
SENDER_EQ_RECEIPT X-Sender 和 Disposition-Notification-To 相同
SENDER_NE_REPLY_TO X-Sender 和 Reply-To 不同
SENDER_EQ_REPLY_TO X-Sender 和 Reply-To 相同
TO_COUNT To 个数
TO_ONE/TO_MAIL_EMPTY 一个 TO, 且没有邮件地址
TO_ONE/FROM_EQ_TO 一个 TO, 且其地址和 From 的地址相同
TO_UID_IN_TO_NAME To 邮件地址@前面的部分出现在名称中
TO_MAIL_IN_TO_NAME To 邮件地址出现在名称中
TO_MAIL_NOT_IN_TO_NAME/TO_DOMAIN_IN_TO_NAME To 邮件地址没出现在名称中, 且域名出现在名称中 
TO_DOMAIN_COUNT To 中不同域名的个数
TO(FROM_DOMAIN)_COUNT 和 From 的域名同域的 To 的个数
TO_DOMAIN_ONE/FROM_DOMAIN_EQ_TO_DOMAIN 收件人中只有一个域, 且和发件人域相同
FROM_DOMAIN_NOT_IN_TO_DOMAIN From 域没出现在 To 中
SUBJECT_FWD_RE 主题开始字符串是 RW/FWD/RE/转发/回复/答复/轉寄/回覆
SUBJECT_LEN 主题长度
SUBJECT_IN_BODY 主题出现在正文
SUBJECT_ONE_TOKEN 主题只有一个TOKEN
SUBJECT_NO_EQ 原始主题没有 =?
SUBJECT_A1B2C_TOKEN 主题中存在类似字段 ABC123D56EFG 或 12BDAF6756SGFA8013
SUBJECT_A1B2_TOKEN 主题中存在类似字段 ABC123DSFSDF56 或 12BDAF6756SGFA
BODY_LEN 正文长度(去掉 html 标签)
BODY_NCR_COUNT 正文中 ncr 个数
INLINE_IMAGE_COUNT 内嵌图片附件个数
INLINE_IMAGE_UNKNOWN_TYPE size最大的内嵌图片的真实类型未知
INLINE_IMAGE_HEIGHT size最大的内嵌图片附件的高度
INLINE_IMAGE_WIDTH size最大的内嵌图片附件的宽度
ATT_COUNT 附件个数(不包含内嵌图片附件)
ATT_SUFFIX 附件名的后缀(文件类型)
ATT_NAME_A1B2C_TOKEN 附件名中存在类似字段 ABC123D56EFG 或 12BDAF6756SGFA8013
ATT_NAME_A1B2_TOKEN 附件名中存在类似字段 ABC123DSFSDF56 或 12BDAF6756SGFA
ATT_NAME_IN_BODY 附件名出现在正文
ATT_NAME_IN_SUBJECT 附件名出现在主题
ATT_NAME_LEN_EQ0 附件名长度为 0
ATT_NAME_LEN_GT0_LT3 附件名长度为 大于 0, 小于 3
ATT_NAME_LEN_GT256 附件名长度为 大于 256
ATT_NAME_ONE_TOKEN 附件名只有一个字段
ATT_NAME_CONSECUTIVE_BLANK_GT10 附件名连续的空格(或 .)超过 10 个
FIRST_TO_IN_HTML_ATT 第一个收件人出现在HTML类型的附件中
URL_COUNT URL个数
HTML_URL_AT 网址中有字符 "@"
FIRST_TO_IN_URL 网址中有第一个收件人地址
HTML_URL_NO_MAILTO 网址中没有 mailto:
HTML_URL_CONTENT_MISMATCHED A(AREA)标签的显示名称是url地址,且和href不一样
HTML_DATA_IMAGE 存在非字母的 HTML 标签
HTML_ATTRIBUTE_NOT_ABC 存在非字母的 HTML 属性
HTML_FONT_SPECIAL 存在特殊的干扰阅读的html属性
HTML_FONT_COLOR_COUNT 有 color 属性的 font 标签的个数
HTML_FONT_SIZE0_COUNT size 为 0 的 font 标签个数
HTML_FONT_SIZE1_COUNT size 为 1 的 font 标签个数
HTML_FONT_SIZE2_COUNT size 为 2 的 font 标签个数
HTML_FONT_SIZE5_COUNT size 为 5 的 font 标签个数
HTML_FONT_SIZE6_COUNT size 为 6 的 font 标签个数
HTML_FONT_SIZE7_COUNT size 为 7 的 font 标签个数
HTML_STYLE_COLOR_COUNT style 中有 color 属性的标签的个数
HTML_STYLE_DISPLAY style 中有 display 属性
HTML_STYLE_POSITION_ABSOLUTE style 中有 position:absolute
HTML_STYLE_SIZE0_COUNT style 中有 size 为 0 属性的标签的个数
HTML_STYLE_SIZE_COUNT style 中有 size 属性的标签的个数
HTML_TABLE_WORD_TD_COUNT table 字, 每行 td 个数(至少30)
HTML_TAG_FORM 有 form 标签
HTML_TAG_FRAME 有 frame 标签
HTML_TAG_SCRIPT 有 script 标签
A_weak_malware 低风险附件文档, 如 html, cab, jar
A_general_malware 一般风险附件文档, 如 ace, arj, iso, r00
A_high_malware 高风险附件文档, 如 bat, com, exe, pif, scr, vbs
A_forged_malware 伪造的高风险附件文档, 如 abcdef.pdf.exe
A_malicious 附件文档里有可能含有(恶意)脚本
A_detected 附件文档类型是探测得到的, 如 abcdef.zip 实际是 abcdef.rar
A_html_refresh 附件文档是html, 且含有 refresh 指令
A_html_tag_frame 附件文档是html, 且含有 iframe 标签
A_html_tag_script 附件文档是html, 且含有 script 标签
A_html_tag_form 附件文档是html, 且含有 form标签
A_html_to_in_url 附件文档是html, 且第一个收件人出现在url中
A_html_at_in_url 附件文档是html, 且 “@” 出现在url中
A_html_url_file 附件文档是html, 且 url 协议是 file://
A_html_data_image 附件文档是html, 且 url 中含有图片
A_html_css_data_image 附件文档是html, 且 css 中含有图片
A_html_url_count 附件文档是html, url的数量
A_html_image_url_count 附件文档是html, 图片url的数量
A_only_one_high_malware_in_tar 附件是压缩包, 且只含有一个文件, 且这个文件是高风险文件
A_only_one_file_in_tar 附件是压缩包, 且只含有一个文件
A_first_to_in_att 第一个收件人在附件中
A_att_name_blank_gt10 附件名含有超过10个连续空格或”.”
A_encrypted 有加密的附件
ATT_IMAGE_QRCODE 附件图片中含有二维码
INLINE_IMAGE_QRCODE 内嵌图片中含有二维码