漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

42.parquet——大数据分析的潜在威胁

talkingdev • 2024-03-28

689696 views

Apache Parquet作为表格数据交换的事实标准,采用二进制、列式、压缩的数据表示方式,具备充足的元数据,使得文件无需额外信息即可正确解释。该格式得到大多数现代数据工具与服务的支持。然而,Parquet文件存在一定风险,即使是格式完美的文件也可能带来问题。本文讨论了如何利用Parquet文件格式的一个漏洞,制造一个仅有42KB大小,却包含622万亿个值的'zip炸弹',解压后需要超过4PB的内存。

核心要点

  • Apache Parquet是大数据分析的常用格式
  • 42.parquet展示了Parquet格式潜在的安全风险
  • 该zip炸弹仅需42KB却能解压成需4PB内存的庞大数据

Read more >