42.parquet——大数据分析的潜在威胁
talkingdev • 2024-03-28
689696 views
Apache Parquet作为表格数据交换的事实标准,采用二进制、列式、压缩的数据表示方式,具备充足的元数据,使得文件无需额外信息即可正确解释。该格式得到大多数现代数据工具与服务的支持。然而,Parquet文件存在一定风险,即使是格式完美的文件也可能带来问题。本文讨论了如何利用Parquet文件格式的一个漏洞,制造一个仅有42KB大小,却包含622万亿个值的'zip炸弹',解压后需要超过4PB的内存。
核心要点
- Apache Parquet是大数据分析的常用格式
- 42.parquet展示了Parquet格式潜在的安全风险
- 该zip炸弹仅需42KB却能解压成需4PB内存的庞大数据