90%的企业和政府数据都是垃圾?

垃圾数据有两层含义,一层指这些数据已经被遗忘或失去使用价值,另一层则指这些数据会像生活中的垃圾一样造成环境污染。
“反环保主义”近年来在中美精英阶层非常流行,瑞典女孩成了最常被取笑的对象。事实上,无论是极端环保主义者,还是“反环保主义者”,往往对环境可持续性与企业责任、新全球化地缘政治与经济博弈缺乏系统而深入的理解。例如,这些自负而短视的所谓精英(这些人或多或少拥有一些话语权甚至决策权),对当下真正的污染元凶——数据,却往往视而不见。
事实上,我们正被自己制造的数据“垃圾山”所吞噬。你可能以为数据是“新石油”,但现实是,我们正在为了存储毫无价值的信息,把这个星球的环境资源榨干。
新的环境污染元凶:垃圾数据
垃圾数据,无处不在。
这些“垃圾”,包括数以万亿计的模糊照片、AI拼接的视频与“歌曲”、重复转发的文件、根本不会再被阅读的报告、取消项目的草图、PPT演示稿的草稿的草稿的草稿……它们正在被一份又一份地储存在所谓的“云端”数据中心——一个绿色外衣下的能耗黑洞。
全球每年拍摄的照片数量,已达到1.9万亿张,是整个20世纪所拍照片总和的数倍。换句话说,平均每个地球人每年拍摄超过200张照片。而这些照片中,绝大多数在拍摄后几乎从未被再次打开。如今,全球存储在“云”上的照片总量超过12万亿张,并以每年数万亿的速度继续膨胀。
这背后,是对资源的无底洞式浪费。
全球数据中心的能耗正在飙升。据国际能源署(IEA)预测,到2026年,全球数据中心将消耗全球电力的4%以上,而目前的数字也已接近3%。这些庞然大物——无论是亚马逊AWS、微软Azure,还是谷歌Cloud——背后运转的是上百万台服务器、散热风扇和24小时不间断运作的冷却系统。而这些系统中有相当一部分,正在为“没人看的页面”和“无用的备份数据”运作。
90%的企业数据是垃圾
一位服务过全球40多个国家的数百家大型组织的数据清理专家感慨道:超过90%的企业或政府数据,都是垃圾。以Kyndryl为例,这家全球最大的IT基础设施服务公司在脱离IBM时发现,自己的数据分布在超过100个数据仓库中。清理之后,删除了90%的数据。
这些数据本不该存在,更不该长期储存。问题的根源在于,数字化浪潮为内容生产按下了无限制的加速键。内容管理系统、内部协作平台、分布式发布机制,让几乎任何员工都能“创造”内容,但却几乎没人对内容进行维护或清理。
微软官网早在2010年,页面数量就已超过1400万,其中400万页面从未被访问过一次。这相当于“一个爱尔兰人口规模的网页群”,从未有任何人点击。
在苏格兰企业官网上,753个页面中,仅47个页面获得了80%的访问量。另一家年访问量过亿的大型组织,其网页中5%占据了80%的流量,而10万页面在过去十年里无人问津。南安普顿大学的公开网站有近400万页面,但96%的页面从未被任何人访问过。
云计算:存垃圾比思考更便宜
而云计算的兴起,让“垃圾数据”问题变得更糟。因为现在,存储数据的成本,低于判断数据有没有价值的成本。
一项针对英国建筑行业的研究显示,2018年企业平均数据存储量为3TB,到2023年飙升至26TB,年复合增长率超过50%。而类似的爆炸性增长,在全球几乎所有行业同步发生。
与此同时,AI也被迫“饮用”这些垃圾数据。训练模型的基础数据中,充斥着重复、错误、无效甚至偏见信息。AI输出“胡言乱语”?当然。Garbage in, garbage out。
管理者不关心,他们只关心“下一个风口”
更讽刺的是,在多数企业中,没有人清楚自己到底存了什么数据,甚至不知道有多少设备正在运行这些数据。数据沉睡在某个无人问津的服务器角落,没人问津,也没人关心。而每月都有人拿着企业信用卡订购未经批准的SaaS工具,把项目讨论、原型设计、市场报告随意上传。
而这一切,都被高管们忽略。他们忙着追逐AI、元宇宙、Web3、LLM,每个热词都像是下一根救命稻草,但却无人愿意为“数字环境污染”承担责任。
“和高管们打交道,一直是我工作中最痛苦的部分,”作者写道,“他们天真、虚荣、自我中心,追逐那些能让他们在董事会上看起来像‘懂科技’的风口,却不关心数据是否真实、是否可用、是否可持续。”
AI军备竞赛,一场环境浩劫
我们正站在一个荒谬的节点上:为了存储自己不愿再看的信息,我们正一点一点透支地球未来。(垃圾)数据,不再只是生产力的象征,它也可能是环境污染的新元凶。
而更值得警惕的是,当下由美国主导的AI军备竞赛,正在加速制造数据中心和垃圾数据。
从硅谷到五角大楼,大模型、智能武器、AI无人机、自动化情报分析系统等技术正在被迅速武器化。OpenAI、Anthropic、Meta、Google DeepMind,无不在政府资金与政策倾斜下疯狂扩建数据中心,部署超算集群,仅NVIDIA的H100芯片一年的出货量就高达百万片,支撑起全球数十亿亿次的参数训练。而这些训练模型的背后,是海量垃圾数据吞吐、巨量电力消耗、水资源浪费与硬件废弃物堆积。
一台训练GPT-4级别模型的AI集群,其一次训练所需电力,相当于一个美国家庭20多年的用电量。
你使用DeepSeek查找《母猪护理指南》,消耗的电能比用Bing或百度高出至少十倍。
在美国西部,为了冷却AI数据中心,谷歌甚至正在抽取地下水源,引发当地农场主和社区的强烈抗议。加州与德州的“AI基地”,正在重演19世纪的“钢铁城市”污染景象,只不过这次看不见烟囱,只有源源不断滚入云端的“数据废气”。
当年工业革命的红利被西方国家享受,环境代价却由全球买单。如今AI军备竞赛的路径,似乎也在重复这段剧本。真正的问题不是AI是不是未来,而是我们是不是又一次,把未来押注在了一场资源密集、效率低下、污染严重的“幻象”之上。在AI这场“无限算力”与“垃圾数据”的科技癫狂中,或许我们最缺的,正是一次认真的刹车。
参考链接:https://gerrymcgovern.com/data-centers-contain-90-crap-data/
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: