文本识别的相关内容 - 漫话开发者

2024-07-22 talkingdev

OpenOCR-统一开源的文本检测与识别基准

OpenOCR是一个旨在统一场景文本检测与识别算法的训练和评估基准。它通过提供一系列的评估标准，使得科研人员和工程师们能够在相同的条件下，对他们的算法进行测试与比较。这为文本检测与识别领域的研究提供了一个公...

2024-03-12 talkingdev

互联网档案馆拥有超过2亿个OCR图书页面，可供研究使用。该数据集可用于文本识别、自然语言处理、信息检索等多个领域的研究。研究人员可以使用该数据集进行模型训练、语言建模、数据分析等工作。该数据集的发布将加速...

2024-02-26 talkingdev

近日，研究人员提出了一种新的文本识别方法——类别感知的掩膜引导特征细化（CAM feature refinement），该方法可以有效提高文本在复杂场景下的识别能力。该方法通过对文本图像进行类别感知的特征细化，达到更好的文本...

2024-01-16 talkingdev

排线检测是在图像或PDF中在文本行周围放置一个边界框的过程。Surya是一个非常强大的多语言排线检测模型，并已在GitHub上开源发布。该模型可以识别多种语言，包括中文、英文、法文、德文和印地文等，并且可以在不同的...

2023-10-25 talkingdev

谷歌将用多模态AI模型Gemini取代PaLM 2，并将其引入Makersuite，提供图像和文本识别功能。该公司还拥有一个名为Stubbs的隐藏工具，使用户可以构建和启动AI生成的应用原型。Makersuite将很快完全支持语言翻译。