OCR的相关内容 - 漫话开发者

2024-03-12 talkingdev

互联网档案馆图书数据集开放

互联网档案馆拥有超过2亿个OCR图书页面，可供研究使用。该数据集可用于文本识别、自然语言处理、信息检索等多个领域的研究。研究人员可以使用该数据集进行模型训练、语言建模、数据分析等工作。该数据集的发布将加速...

2024-02-12 talkingdev

Miracode是基于Minecraft UI字体的Monocraft字体的可读版本。这个开源项目具有更好的可读性和更多的字形，可以在开发和设计中使用。这个开源项目已经在GitHub上发布，供所有人使用。Miracode的发布标志着Minecraft...

2024-02-02 talkingdev

Llava是一种视觉语言模型，最新版本为1.6，经过改进后，其OCR、推理和世界知识等方面有了很大提升，甚至在某些任务上可以与Gemini相媲美。Llava团队计划发布数据、代码和模型，以便更多人能够使用。

2024-01-16 talkingdev

排线检测是在图像或PDF中在文本行周围放置一个边界框的过程。Surya是一个非常强大的多语言排线检测模型，并已在GitHub上开源发布。该模型可以识别多种语言，包括中文、英文、法文、德文和印地文等，并且可以在不同的...

2023-11-10 talkingdev

Audiocraft MusicGen是一款强大的将文本转化为音乐的人工智能模型。最新升级的版本现在支持立体声生成，通过巧妙地交叉使用左右声道进行微调，提高了整体音乐体验。虽然这一升级并没有提高基准分数，但它能够更好地...

2023-10-27 talkingdev

本文研究了大型多模型GPT-4V在各种光学字符识别（OCR）任务中的表现，包括读取场景和手写文本，理解复杂的文档结构等。

2023-10-05 talkingdev

微软已将OpenAI的DALL-E 3集成到Bing Chat中，为用户提供了更强大的图像生成功能。DALL-E 3承诺提高了对提示的理解，能生成更有创意和逼真的图像。此外，微软计划将DALL-E技术应用于其他产品中，例如Windows的Paint...

2023-10-03 talkingdev

近年来，Microsoft的UniLM团队在自然语言处理领域取得了一些显著的成果。他们最近推出的Kosmos模型套件已经进军图像领域。这次的特定实例是用于从图像读取文本密集的文件，并为该文件生成文本或标记。这与最近Meta为...