内网环境下的强化学习自动检测与优化

文章主题：强化学习, RLH流程, ChatGPT, 误报处理

　　ChatGPT是OpenAI公司开发的一个大型预训练语言模型。根据UBS发布的研究报告显示，ChatGPT在1月份的月活跃用户数已经达1亿，成为史上用户增长最快的消费者应用。

　　为什么ChatGPT能在2个月内达到月活过亿？这与其卓越的智能程度及丰富的应用场景息息相关。它能在不同行业促进数实共生，促进产业升级。下文首先会对ChatGPT的原理及应用场景进行简单介绍，然后会重点介绍安恒信息在安全领域对ChatGPT的研究以及应用。

　　ChatGPT简介

　　ChatGPT的算法基于Transformer架构，这是一种使用自注意力机制处理输入数据的深度神经网络。Transformer架构广泛应用于语言翻译、文本摘要、问答等自然语言处理任务。ChatGPT使用了GPT-3.5大规模语言模型（LLM Large Language Model）并在该模型的基础上，引入强化学习来微调（fine-turn）预训练的语言模型。这里的强化学习采用的是RLHF（Reinforcement Learning from Human Feedback），即采用人工标注的方式。目的是通过其奖励惩罚机制（reward）让LLM模型学会理解各种NLP任务并学会从helpfulness、honest、harmless三个维度，判断什么样的答案是优质的。

　　ChatGPT模型的主要训练流程如下：

　　1、首先利用一系列问答对模型进行监督训练（这个操作也叫监督指令微调）；

　　2、在完成监督指令微调后，就开始利用强化学习（模型在给定的环境中，不断地根据环境的惩罚和奖励，拟合到一个最适应环境的状态）对模型进行进一步的指令微调，具体地，首先在人类的帮助下训练一个奖赏网络，这个奖赏网络具有对多个聊天回复好坏进行排序的能力；

　　3、利用这个奖赏网络，进一步通过强化学习不断优化模型。

　　内网环境下的强化学习自动检测与优化

　　ChatGPT应用场景

　　ChatGPT可以进行多轮问答，如实现造句和增加细节。

　　ChatGPT可以用于编写代码，如用Python实现快速排序。

　　ChatGPT可以用于做数学题，如计算哥哥要给弟弟多少个苹果，才能使得哥俩的苹果数量相同。

　　从ChatGPT可以编写代码，可以很容易联想到编程技术的门槛降低，这是一把双刃剑，能被网络犯罪集团用来生成携带恶意载荷的恶意软件、编写巧妙的网络钓鱼邮件等，普通人尝试进行网络攻击也将变得更加容易。从另一面来讲，ChatGPT也可以和安全领域的众多场景结合起来，提升安全防护能力及运营效率。安恒信息已经将类ChatGPT的AI算法和智能数据分类分级、智能生成检测规则、智能告警处置分析、智能客服问答系统、智能钓鱼邮件分析、智能加密流量检测等多个场景进行结合，推进研究并逐步落地到产品中。下面将详细介绍这6个场景。

　　智能数据分类分级

　　数据分类分级是数据安全治理的基石，只有对数据进行有效分类分级，才能在数据安全管理上采用更加精细的控制。分类分级的依据通常来源于法律法规、行业标准或地区标准文件，例如《JR/T 0197-2020 金融数据安全数据安全分级指南》中规定微信号、手机号等个人联系信息的最低安全级别为3级。专业的数据安全分类分级服务人员通过熟悉这些标准文件，凭主观判断完成数据的类别级别梳理工作。

　　人工智能模型在数据安全分类分级场景中占据越来越重要的地位，正在逐步取代人工繁琐单调的数据分类分级标注工作。基于强化学习的人工智能模型已经在安恒信息AiSort数据安全分级产品中部署应用，AiSort能够精准识别数据业务含义，进行自动分类分级，大幅提高数据梳理的工作效率。

强化学习 RLH流程示意

　　AiSort 内置了融合法律法规、行业标准等领域知识的预训练模型，同时支持模型有监督训练。用户利用有标签的数据源对模型进行训练，学习数据的特征与类别级别之间的内在关联，可预测出其它类似数据源的分类分级结果。产品在交互中接收人工反馈，引入强化学习 RLHF（Reinforcement Learning from Human Feedback）来微调预训练的分类分级模型，在模型给出的候选分类分级结果中选择最优结果，通过奖励惩罚机制使模型不断优化自身，训练出一个分类分级领域适合客户的专有AI模型。

　　产品可根据数据的内容和描述等特征给出正确的分级结果，并且理解并引用标准文件中判断依据，帮助服务人员提升数据治理工作效率，在不同行业、不同业务条件下都能提供更加优质的数据安全分类分级服务。

　　智能生成检测规则

　　检测规则是检测网络入侵，保护网络安全的重要手段。当前大部分的网络安全规则主要是依靠安全研究人员的经验来制作的，面对黑客层出不穷的攻击手段，专家经验的规则存在误报和无法识别新的攻击的问题。ChatGPT可以帮助更好地自动生成检测规则。

在内网环境中，ChatGPT能够根据客户现场对误报处理的需求，自动地从海量的原始日志、告警信息以及误报数据中进行学习，进而自动生成相应的检测规则。举例来说，ChatGPT可以自动识别运营人员经常误报的IP地址和端口，并基于此提出生成检测规则的建议，同时将这些IP地址和端口纳入白名单或封禁列表中。

　　针对云上环境。ChatGPT可以利用安恒信息MSS安全托管运营服务平台大量收集全国数据，在此基础上研究场景，利用强化学习训练模型和人工反馈不断调试优化。开发运营反馈模块，针对告警排查过程中的各种日志证据，进行录入上报，利用ChatGPT学习到其中的模式并自动生成告警规则，在降低误报的同时也可以对新产生的攻击方式和手法自动生成检测规则。

　　智能告警处置分析

　　告警分析是安全运营的核心内容。伴随着组织机构的扩张、业务逻辑的复杂化，一个大中型企业每日的告警量很容易达到百万量级，从海量告警中筛选出重要风险事件给安全运营人员带来沉重负担。ChatGPT技术在告警响应处置中发挥重要作用。

　　针对告警处置，ChatGPT可以学习安全分析师对各类风险场景的处置动作，自动生成处置规则。借助运营反馈模块，将告警排查过程中的各种日志证据进行录入上报。针对云上环境，可以利用MSS平台收集全国数据。在此大量数据基础上训练用于风险研判的ChatGPT模型。针对特定告警和风险场景，由模型生成若干处置建议，通过人工反馈训练模型判断出最优的处置动作，使其学会生成正确的处置规则。

　　在日常的运营过程中，使用ChatGPT技术学习大量历史运营分析报告内容之后，能够针对各类安全设备产生的告警事件和统计指标，迅速生成分析报告、捕捉关键异常、生成处置建议，协助分析师更快地洞察事件全貌。

　　智能客服问答系统

　　随着产品数量种类的增加，不同产品的安装部署、系统运维、常见问题、安全服务等都不尽相同，面对大量不同客户的不同问题，如果仅仅依靠人工的方式来集解答和处理，会极大增加人工的成本。

　　使用ChatGPT技术，通过对不同产品的各类文档和客户常见问题的学习，使用强化学习的方式来训练一个智能客服问答系统，系统可以根据大量的

内网环境下的强化学习自动检测与优化

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号AIGC666aigc999或上边扫码，即可拥有个人AI助手！

相关文章