1. 首页
  2.  » 
  3. 新闻中心
  4.  » 协议解码技术新突破!天旦申请了该专利

协议解码技术新突破!天旦申请了该专利

by | Jun 15, 2021

问:从1亿笔交易中精准匹配千笔需要多久? 2020年,天旦收到某证券客户的技术支持请求,从协助请求发出至圆满解决不过几小时;未来,这个时间会更短。 IT技术更新迭代的速度远超你的想象。2020年,有超200亿台连接设备为每位用户生成高达数十亿字节的数据;2021年,这个数字还将继续增长。随着IT设备规模的不断扩大,网络环境愈发复杂,如何管理海量数据是所有企业面临的共同问题。 进行一笔交易通常需要经过多台网络设备与多个应用系统,而不同的设备与系统间的语言也各不相同。从1亿笔交易中精准定位符合条件的千笔交易,完整还原交易过程至关重要。而首先要做的便是解读设备与系统间的语言,也就是我们常说的解码。  应用设备与控制端进行交互的过程中需要约定彼此间通讯的数据帧格式,即不同的功能对应不同的数据帧,这种约定被称作协议。不同的设备、系统有不同的协议规范,我们通常将协议划为两类:通用协议和私有协议。私有协议是企业自定的协议标准,一般仅适用于本企业的全部或部分产品,程序语言较多,设备程序和应用程序都要有编码的过程。在开发过程中需要确定协议栈的功能、通信类型、消息定义、协议支持的字段类型,最终确定编码规范。私有协议通常不公开协议细节,因此,如何识别与分析未知的私有协议对任何一家软件厂商都极具挑战性。

已知协议识别与分析  VS  未知协议识别与分析

所有的通用协议都是已知协议,所有的私有协议并非都是未知协议。对已知协议的识别与分析,主要是以已知协议格式特征、端口特征、流量特征等为基础,识别应用使用的通信协议并根据协议规范对协议报文进行分析;而在协议特征未知的情况下,通过协议报文或协议软件执行过程中分析得到的协议规范,就是对未知协议的主要分析方法,业界称为“协议逆向分析”。

自动协议逆向工程

随着业务规模扩大,网络愈发复杂,应用种类不断增多,私有未知协议也越来越多,但是性能管理对解码的时效性要求依然很高。过去对未知协议的识别与分析依赖人工手动操作,既耗费人力也容易出错。而使用解码器一则开发成本较高,二则不能完全适用所有的未知私有协议,因此无法完全适用业务发展的需求,自动化的协议逆向分析技术应运而生。人们期望在不依赖协议描述的情况下,通过对协议的网络输入输出、系统行为和指令执行流程进行监控和分析,自动提取协议语法、语义和同步信息,该过程就是自动协议逆向工程。 自动化的协议逆向工程旨在建立协议规范描述模型,通过输入预处理、协议格式提取与分析等流程来实现。
输入预处理
实际网络通信数据或者连续的网络数据流及处理网络数据流的指令是协议逆向的原始输入。在进行协议格式提取与分析之前,首先要剔除原始输入中的冗余和干扰,比如报文序列中可能出现的重传、乱序等。
协议格式提取
协议的字段符号特征和结构是格式文法的属性。传统的协议格式提取需要依次经过字段识别、结构提取、语义与取值约束判断,方可识别每个报文所对应的格式,并对报文格式进行合并得到统一的协议格式文法和报文结构属性。协议格式提取方法分为两大类:软件指令执行轨迹的协议格式提取网络数据的协议格式提取

软件指令分析技术 VS 网络数据分析技术

软件指令分析技术
基于软件指令的分析方法是以协议实现软件为对象,通过控制流或数据流分析等技术,全程跟踪软件在协议处理过程中的指令执行轨迹进而进行分析。该方法需要获得协议实现软件的可执行文件,由于现实中很少能实现,因此应用范围较窄。
网络数据分析技术 基于网络数据的分析方法则是以实际网络通信数据为对象,采用数据挖掘的方式,通过对网络数据进行模式提取、特征分析,数据挖掘等来进行分析。
与软件指令分析技术相比,网络数据分析技术具有时效性强、对终端依赖小、通用性强的特点。但是现有的基于网络数据的协议逆向分析技术也存在许多缺陷,譬如:
  1. 在仅提供正例网络流量的前提下,正则语言不可能通过学习得到;
  2. 如果采用加密和压缩机制的协议,报文字节的取值已被破坏,无法通过网络流量分析进行逆向;
  3. 对样本集的覆盖率依赖性较强,针对样本中不存在的报文格式,无法进行网络流量分析逆向···
面对现有技术需要额外先验知识、支持协议类型少、对结构复杂的协议识别效果不好、推断出的协议规范不完整等缺陷,天旦的技术专家发明了一种基于强化学习的协议逆向工程系统及其工作方法

 基于强化学习的协议逆向工程系统及其工作方法

基于强化学习的协议逆向工程系统包括解码环境模块和解码智能体模块,其中解码环境模块接收解码智能体模块输出的前一个时刻的状态和当前的动作,并向解码智能体模块输入新的状态。与现有技术相比,天旦的发明专利具有以下增益效果
  1. 使用协议结构树表示协议结构,该方式蕴含丰富语义,支持复杂结构,具有表达力强的特点;
  2. 创新性地提出了一种深度强化学习的方式,通过大量的数据训练,应用范围得以拓宽,可以应对各种不同类型协议的数据;
  3. 训练好的解码模型在执行协议逆向时,无需任何先验知识与人工参与,能够全自动地执行协议逆向。

(天旦专利技术基础说明图)

2020年,天旦技术专家从1亿笔交易中匹配千笔用了短短数小时。彼时,天旦的互联数据引擎能够在无须埋点或改造应用的情况下支持2400余种业务与应用数据的自动识别与整合,并拓展了500多种协议的解码环境,将各种复杂的语言统一成互联数据,帮助用户获取实时、精准的网络与业务大数据。未来,基于强化学习的天旦协议解码新技术,必将帮助更多企业实现数据的快速发现、分析与整合,并在性能监控、业务运营等维度发挥更多价值。

– end –

凝心聚力、志在四方,天旦荣获“华为FPGGP 2022年度最佳贡献奖”

天旦获得华为的高度认可,荣获华为“2022年度FPGGP最佳贡献奖”、解决方案开发基金&营销基金等多项殊荣。

天旦出席全球智慧金融峰会2023,AIOps为智慧金融注入新活力

出席华为Gauss生态圈发布、携手发布“分布式新核心全链路智能运维联合解决方案”,天旦全方位亮相华为智慧金融峰会2023。

天旦出席华为亚太合作伙伴大会2023

5月17日,华为亚太合作伙伴大会2023正式开幕,天旦受邀出席亚太合作伙伴联盟发布仪式,并发表圆桌演讲。

关注天旦公众号

跟旦旦一起,

让运维稳定无忧,

运营做你所想。