Abstract

这篇论文来自牛津大学, 讲述了如何利用RNN(Recurrent Neural Network)循环神经网络模型来进行原始码混淆.
本来代码编译完就应该是机器码可以变成汇编但不容易还原, 但那种解释型语言用解释器去解释源代码执行的就倒霉了, 还有java这种编译生成对人类阅读比较友好的字节码再给虚拟机执行. 所以这种情况下就体现出了源代码混淆的价值, 让代码可以跑但看不到具体怎么写的.
Seq2seq本来是用来进行翻译的, 这篇论文把这个用来进行代码加密.

先快速回想一下关键技术的原理吧

传统的神经网络模型对于输入的向量, 进行权重计算输入下一层, 算了很多层后得出了结果, 跟实际结果比较再算出损失值, 再想办法让损失值变成比较小的前提下计算导数乘以步长就是学习率.
有很多训练数据的话, 同时计算多个数据的预测值得出损失函数, 这样就能训练的更好.
要注意的是本来这样跟权重或Biases去乘乘加加得出来的还是直线或者说高维空间的一个平面, 加一个激活函数就变成弯的了, 这样很多弯的高位平面叠加就能围成各种形状的高维空间来进行分类预测.

这确实是人工智能, 但这种做法缺点也很明显, 那就是输入数据的格式被定死了.
比如说预测伪随机数抽卡的<原X Imp*ct>下一次抽卡的出货概率, 用很多的抽卡情况作为训练数据, 作为输入数据的之前的抽卡情况肯定是各种各样的, 比如抽70次的预测出货概率肯定应该比抽20次的预测概率要高 (指的是因为伪随机数抽卡, 如果之前的抽卡情况都没出货, 则预测第71抽会比第21抽的出货概率更高). 但传统的神经网络模型就只能预测某个固定次数的, 因为就像上图里面的显示的输入数据的格式已经被固定了.

[論文] (牛津大学) DeepObfusCode: Source Code Obfuscation Through Sequence-to-Sequence Networks

Abstract

Content

Chapter 1

Chapter 2

Stealth

Execution Cost

Conclusion