协议解码技术新突破!天旦申请了该专利

问:从1亿笔交易中精准匹配千笔需要多久?
2020年,天旦收到某证券客户的技术支持请求,从协助请求发出至圆满解决不过几小时;未来,这个时间会更短。
IT技术更新迭代的速度远超你的想象。2020年,有超200亿台连接设备为每位用户生成高达数十亿字节的数据;2021年,这个数字还将继续增长。随着IT设备规模的不断扩大,网络环境愈发复杂,如何管理海量数据是所有企业面临的共同问题。
进行一笔交易通常需要经过多台网络设备与多个应用系统,而不同的设备与系统间的语言也各不相同。从1亿笔交易中精准定位符合条件的千笔交易,完整还原交易过程至关重要。而首先要做的便是解读设备与系统间的语言,也就是我们常说的解码。
应用设备与控制端进行交互的过程中需要约定彼此间通讯的数据帧格式,即不同的功能对应不同的数据帧,这种约定被称作协议。不同的设备、系统有不同的协议规范,我们通常将协议划为两类:通用协议和私有协议。私有协议是企业自定的协议标准,一般仅适用于本企业的全部或部分产品,程序语言较多,设备程序和应用程序都要有编码的过程。在开发过程中需要确定协议栈的功能、通信类型、消息定义、协议支持的字段类型,最终确定编码规范。私有协议通常不公开协议细节,因此,如何识别与分析未知的私有协议对任何一家软件厂商都极具挑战性。
已知协议识别与分析 VS 未知协议识别与分析
所有的通用协议都是已知协议,所有的私有协议并非都是未知协议。对已知协议的识别与分析,主要是以已知协议格式特征、端口特征、流量特征等为基础,识别应用使用的通信协议并根据协议规范对协议报文进行分析;而在协议特征未知的情况下,通过协议报文或协议软件执行过程中分析得到的协议规范,就是对未知协议的主要分析方法,业界称为“协议逆向分析”。
自动协议逆向工程
随着业务规模扩大,网络愈发复杂,应用种类不断增多,私有未知协议也越来越多,但是性能管理对解码的时效性要求依然很高。过去对未知协议的识别与分析依赖人工手动操作,既耗费人力也容易出错。而使用解码器一则开发成本较高,二则不能完全适用所有的未知私有协议,因此无法完全适用业务发展的需求,自动化的协议逆向分析技术应运而生。人们期望在不依赖协议描述的情况下,通过对协议的网络输入输出、系统行为和指令执行流程进行监控和分析,自动提取协议语法、语义和同步信息,该过程就是自动协议逆向工程。
自动化的协议逆向工程旨在建立协议规范描述模型,通过输入预处理、协议格式提取与分析等流程来实现。
软件指令分析技术 VS 网络数据分析技术
- 在仅提供正例网络流量的前提下,正则语言不可能通过学习得到;
- 如果采用加密和压缩机制的协议,报文字节的取值已被破坏,无法通过网络流量分析进行逆向;
- 对样本集的覆盖率依赖性较强,针对样本中不存在的报文格式,无法进行网络流量分析逆向···
基于强化学习的协议逆向工程系统及其工作方法
基于强化学习的协议逆向工程系统包括解码环境模块和解码智能体模块,其中解码环境模块接收解码智能体模块输出的前一个时刻的状态和当前的动作,并向解码智能体模块输入新的状态。与现有技术相比,天旦的发明专利具有以下增益效果:- 使用协议结构树表示协议结构,该方式蕴含丰富语义,支持复杂结构,具有表达力强的特点;
- 创新性地提出了一种深度强化学习的方式,通过大量的数据训练,应用范围得以拓宽,可以应对各种不同类型协议的数据;
- 训练好的解码模型在执行协议逆向时,无需任何先验知识与人工参与,能够全自动地执行协议逆向。

(天旦专利技术基础说明图)
2020年,天旦技术专家从1亿笔交易中匹配千笔用了短短数小时。彼时,天旦的互联数据引擎能够在无须埋点或改造应用的情况下支持2400余种业务与应用数据的自动识别与整合,并拓展了500多种协议的解码环境,将各种复杂的语言统一成互联数据,帮助用户获取实时、精准的网络与业务大数据。未来,基于强化学习的天旦协议解码新技术,必将帮助更多企业实现数据的快速发现、分析与整合,并在性能监控、业务运营等维度发挥更多价值。
– end –
关注天旦公众号
跟旦旦一起,
让运维稳定无忧,
运营做你所想。

