Databricks近日宣布收购Tabular,此举将联合Apache Iceberg和Delta Lake的主要贡献者,专注于其湖仓架构的数据格式兼容性。此次收购的目标是实现数据互操作性的单一开放标准,以防止数据孤岛的形成。作为这一努力的...
Read MoreHTTP协议的第一个草案只有一种方法,即GET,没有头部或状态代码,唯一可用的数据格式是HTML。从那时起,协议已经发生了重大变化。 HTTP/3专为不稳定的连接而设计,因此需要在性能上做出一些权衡。 HTTP/2在可靠和稳...
Read MoreHuggingFace最近发布了一种名为WebDataset的数据格式,它可以将多个记录组合在一起。任何具有相同前缀的内容都会被视为同一条记录。这种格式非常适合于流式传输和快速数据加载。WebDataset还可以支持使用并行处理来...
Read More近日,研发团队宣布推出了AgentBoard,一款专为多轮LLM代理设计的基准测试工具。AgentBoard不仅可以评估LLM代理的最终成功率,还提供了分析评估板以进行更详细的模型评估。这款工具可以更全面地评估LLM代理,为LLM代...
Read MoreLance是一种现代的机器学习数据格式。它提供了更快的随机访问、向量索引、数据版本控制等功能。Lance支持pandas、duckdb、polars和pyarrow等工具,可用于构建搜索引擎和特征库、大规模机器学习训练,以及存储、查询...
Read MoreJesth是一种易读的数据序列化格式,可以创建包含各种类型数据的文档。最近,它成为了GitHub上的热门仓库。 以下是Jesth的三个核心特点: - Jesth是一种轻量级的数据格式,易于使用和阅读。 - Jesth支持大量的数据...
Read More