测量恶意软件检测能力

工作来源

WTMC 2024

工作设计

利用在 2023 年 9 月到 11 月间，上传到 MalwareBazaar 的 63.5 万个恶意软件样本，与 VirusTotal 给出的相关信息进行分析。

工作准备

数据集情况如下所示，从中抽取了 1500 个最近提交的恶意软件样本子集并连续 90 天检索 VirusTotal 的分析结果。

可以看出，大多数恶意软件能够被 80% 的引擎识别。检测样本文件为恶意文件的引擎占比以 60% 为界，大约 67% 的恶意软件能够被 60% 的引擎检出。

工作评估

最常见的样本与最低检出率 TOP10 家族情况如下所示，像 qbot 与 sload 这样样本数量庞大但检出率较低的家族就应该被重视。

Emotet、AgentTesla、Dridex 等家族的大多数样本都具有较高的检出率，只有不到 20% 的样本检出率低于 60%。而 sload、encdoc、sneaky 等家族的大多数样本都具有较低的检出率，隐蔽性较好。

60% 的分析结果距离首次上传到 VirusTotal 都小于 71 天，但这些仍然多数都有 60% 以上的检出率。

从回归线可以看出，mirai、qbot 和 sload 家族的检测率会随着时间而提高，尽管 sload 在改善后也并没有达到比较高的检出率。而 Valyria 在较长时间内，引擎的检出率都没有明显变化。

第一天 1500 个恶意样本的检出率约为 64%，30 天内检出率提升至 69%，30 天后检出率就没有显著变化了。

根据 VirusTotal 的数据条款，不能透露具体引擎的名称。TOP 20 家族的检测情况如下所示，竖向为一个检测引擎，横向为一个恶意软件加载。各个检测引擎的检测能力差异巨大，大体可以分为三种类型：① 最左侧均等深色的引擎，表现很差 ② 最右侧均等浅色的引擎，表现很好 ③ 绝大多数引擎都不可避免地会存在弱点和盲区。有一些检测引擎能够表现出近乎完美的检测能力，说明在这样的场景下对比其实也是存在最优解的。

通过蒙特卡洛模拟来评估检测能力和检测成本的平衡点，模拟 100 次每次随机选择 20 个检测引擎。由图可知，最佳的检测引擎数量在 5 到 7 间，更多的检测引擎难以对检测效果带来明显的改善。检测能力随着时间推移也会跟着提升，但并不明显。

模拟评估安全投资对业务运营的影响，过程不赘述，感兴趣请看原文。14 名安全和 IT 主管针对三种不同场景进行了 77 次模拟，分别面临常规网络威胁、恶意软件威胁以及支付赎金条件下的恶意软件威胁。

超过 50% 的参与者无法制定有效的风险管理策略来对抗恶意软件，平均需要参与三次才能设计出有效的网络安全风险管理策略。

难以检测的恶意软件可以绕过合理的网络风险管理策略，并显著影响风险与性能。

工作思考

针对文件的分析与检测，需要系统性和科学的设计，测量可以反映内在的规律和特性，有助于理解和进一步的设计。

为您推荐

漏洞预警 | 百易云资产管理运营系统SQL注入漏洞

漏洞预警 | 灵当CRM任意文件读取漏洞

漏洞预警 | 用友移动系统管理SQL注入漏洞

漏洞预警 | 灵当CRM任意文件读取漏洞

【漏洞预警】VMware vCenter Server 堆溢出漏洞(CVE-2024-38812)

【漏洞预警】Apache Solr高危漏洞曝光,速查你的系统是否中招!