国家不让TikTok卖的到底是个啥

作者： Cashcow
2020年09月01日
动态

TikTok这出肥皂剧，最新的进展是商务部会同科技部调整发布了《中国禁止出口限制出口技术目录》。这个调整，最直接的影响应该是，字节跳动要想把TikTok整体打包卖给美国企业，必须到省级（北京市）商务主管部门申请技术出口许可，获得批准后方可对外进行实质性谈判，签订技术出口合同。简而言之，TikTok想卖没那么容易了。

这个消息一出，各种吃瓜评论此起彼伏。然而吃了几天的瓜以后，我发现大家都在大国博弈、民族气节这种高举高打的层面上讨论，反而一个关键的问题几乎没人谈论：

问题1：国家不让TikTok卖的到底是什么？

这个问题看似很蠢，不是在《目录》的调整中都说明白了么，增加了“基于数据分析的个性化信息推送服务技术”，就这个技术不让卖嘛。

问题2：那什么是“基于数据分析的个性化信息推送服务技术”呢？

这个问题，就开始有点意思了。因为我们都知道，中国的互联网公司，有一个算一个，基本上是不掌握什么核心科技的，大家都是在开源架构基础上搞搞工程应用。当然工程应用也是非常有价值的东西，但是只要看看美国的实体清单（aka川总选股），中国互联网公司没什么核心技术这一点也就很明显了。

于是这就有了一个矛盾：既然没什么核心技术，为啥中国政府不让卖？这个矛盾的关键就在于前面的问题2：这个“基于数据分析的个性化信息推送服务技术”到底是什么。我在以前的一个文章（用敏捷方法管理机器学习项目：工作内容）里面讲过，建一个机器学习（或者比较潮的说法，“人工智能”）系统，大概就是这么一个过程：

简单说，就是你需要先拿一大堆数据，用一个机器学习的算法来训练，得到一个模型。然后你就可以拿着模型去对新的数据做预测。「用过往的数据训练得到模型」这个过程，是人工智能的开发过程。「用训练好的模型预测未来的数据」这个过程，是人工智能的使用过程。

现在看明白了吗？《目录》里说的“基于数据分析的个性化信息推送服务技术”，不是指训练模型用的算法，而是指训练完成的模型本身。

这就解释了前面这个矛盾：字节跳动使用的算法（我猜测）并没有什么特别的核心科技，无非就是大家都在用的一些推荐算法，大概率都已经发了paper了，顶多加上若干工(tiao)程(can)优(shu)化，这东西不至于让中国政府专门发个公告不准往外卖。真正不让卖的，是这个算法训练出的模型，也就是在抖音和TikTok背后每天做几亿次推荐的那个人工智能。

问题3：为什么模型不能卖给外国企业？

这时候我们才真正接近这个问题的本质：模型到底是什么？

过去计算机行业有一个经典的说法：程序=算法+数据。算法是确定的、放诸四海而皆准的。将不变的算法应用于不断变动、层出不穷的数据，就得到了计算机软件千变万化的行为。这个理论在过去很多年、对于很多软件都是适用的，但对于机器学习/人工智能类型的软件，它就失效了。失效的点，恰好就是这个「模型是什么」的问题。

模型是算法吗？好像是，又好像不是。模型确实（像算法一样）决定着软件的不同行为。但生产环境中使用的模型，其行为很大程度上无法被解释、无法被描述，唯一合适的描述就是「过去是这样的，所以未来也会这样」。从「一系列解决问题的清晰指令」这个定义来说，模型无论如何也不是经典意义上的算法。

模型是数据吗？这就更难回答了。一方面，模型确实来自于过往的数据，甚至可以说，每个用户做过的每个操作，都在模型中留下了痕迹。但另一方面，「训练」是一个不可逆的过程：从模型无法反推出用户的具体信息、具体操作，所有的数据都已经成为了这个人工智能无可分割的组成部分。从这个角度来说，模型又不像是经典意义上的数据。

但信息论告诉我们，一切负熵俱有由来。一个模型能对未来的数据做出比较准确的（优于丢骰子瞎猜的）预测，是因为训练过程中使用的数据为其提供了信息（负熵）。换句话说，字节跳动使用的推荐模型，蕴含了中国几亿用户、几千亿次交互的信息。

的确，从模型中无法还原起初的数据，因此我们并不能简单地说「获得字节跳动的推荐模型就等于获得了中国人的行为数据」。但我们同样不能忽视「中国人的行为数据是此模型中信息（负熵）的源头」这一事实。从信息学的角度，这个推荐模型，已经蕴含了非常广泛的中国人的行为数据。而这，我认为，是中国政府要明确禁止此类技术出口的根本原因所在。

问题4：如果出售了模型会怎么样？

这是一个自然的追问。尽管模型的负熵源自用户数据，但从模型并不能逆推还原出用户数据。所以即使把模型出售给外国企业又如何呢？又并不会导致隐私数据外泄。

我认为这个问题会暴露出我们在看待「数据安全」这个议题时的一种传统而局限的视角。美国的棱镜计划已经让我们看到，传统意义上的「隐私数据外泄」——例如知道某个人的姓名年龄信用卡号——并不是用数据为恶的必要条件：只要收集和分析大量人群的通信元数据（即：哪个设备和哪个设备通信），并不需要了解通信的具体内容，就可以对「具有威胁的」个体进行精确定位和打击。

TikTok这个例子则会把我们的思路再往前推一步：只要掌握大量人群行为的模型，并不需要掌握具体的行为数据，就可以对整个人群进行精确定位和打击。举例来说，如果CIA想发布一个攻击中国政府的信息，过去它需要咨询了解目标受众的专家，根据专家的建议调整讲述这条信息的方式；如果有了字节跳动的推荐引擎和模型，它就可以用各种风格来编写这条消息，然后丢给推荐引擎来评分，判断哪种风格更可能受中国读者欢迎、甚至更受中国某个细分群体的欢迎。蕴含广泛中国人行为数据的推荐模型，几乎立即就可以用作舆论战的武器。

一切负熵俱有由来。
一切负熵俱有能量。

所以，中国政府紧急调整《目录》限制TikTok的出售，很可能，并不只是为了避免民营企业家抱薪救火，而是可能有更紧迫的国家安全角度的考量。

问题5：这个案例有何历史意义？

我甚至有种感觉，站在不远的将来往回看，TikTok这个案例，有可能具有里程碑式的历史意义。因为这个案例让我们重新反思一个非常重要而又非常现实的问题：

在大数据时代，网络战场的边界在哪里？

TikTok的案例告诉我们，如果一个国家想在网络战场上攻击另一个国家，不一定需要黑破它的防火墙，不一定需要窃取它的隐私数据，甚至不一定需要拿到它的任何数据库。只要通过企业并购获得某种基于机器学习的「个性化服务技术」，就有可能对后者展开攻击。

我不知道这场战争是否已经打响。但很明显，打响这场战争需要的武器，并不难造。认识到这种武器存在的可能性，也许在不远的将来，会被证明是一个重要的历史节点。

文章来源：程序员练功房作者：熊节


第一时间获取面向IT决策者的独家深度资讯，敬请关注IT经理网微信号：ctociocom


   除非注明，本站文章均为原创或编译，未经许可严禁转载。


相关文章：


                    数字冷战第一枪：TikTok可能被美国永久封禁
                                      TikTok在其应用发布了美国选举指南
                                      华为正式断芯，TikTok剧情反转，大国博弈标志性的一天
                                      印度封杀TikTok等中国应用，Roposo、ShareChat成为最大受益者
                  



标签： tiktok, 抖音