Nougat：一种用于科学文档OCR的Transformer 模型-526互联

随着人工智能领域的不断进步，其子领域，包括自然语言处理，自然语言生成，计算机视觉等，由于其广泛的用例而迅速获得了大量的普及。光学字符识别(OCR)是计算机视觉中一个成熟且被广泛研究的领域。它有许多用途，如文档数字化、手写识别和场景文本识别。数学表达式的识别是OCR在学术研究中受到广泛关注的一个领域。

PDF是最广泛使用的格式之一，它通常保存在书籍中或发表在学术期刊上。pdf是互联网上第二大使用的数据格式，占信息的2.4%，经常用于文档传递。尽管它们被广泛使用，但从PDF文件中提取信息可能很困难，特别是在处理像科学研究文章这样高度专业化的材料时。因为包含了很多的数学公式，而现阶段的OCR可能会导致数学表达式的语义信息丢失。

Meta AI的一组研究人员推出了一种名为Nougat的解决方案，它代表“Neural Optical Understanding for Academic Documents”。为了对科学文本进行光学字符识别(OCR)，Nougat是一种VIT模型。它的目标是将这些文件转换为标记语言，以便更容易访问和机器可读。

https://avoid.overfit.cn/post/061348444174421ebbe69423117c6e98

人工智能2023 transformer科学家

transformer-based entroformer transformer模型

pre-trained transformer generative模型

transformer姿态模型视觉