工业领域OCR数据集发布,涵盖2600万页高质量PDF文档
thinkindev • 2024-04-03
1831377 views
近日,一个庞大的工业文档OCR数据集正式发布,该数据集包含了2600万页的高质量PDF文档,总计约180亿个标记。这些文档涵盖了工业领域的广泛内容,包括机械设计、电气工程、自动化控制等多个方面。该数据集的发布,将为工业领域内的自然语言处理和机器学习研究提供宝贵的资源,有助于提高文档识别、语义理解和自动化处理等技术的发展水平。
核心要点
- 2600万页高质量OCR工业文档
- 180亿个标记的数据规模
- 推动工业领域NLP和机器学习研究