VALSE 2024 计算机视觉与机器学习 | 文档解析与向量化技术加速多模态大模型训练与应用_机器学习

第十四届视觉与学习青年学者研讨会（valse 2024）近期在重庆悦来国际会议中心圆满举行，由中国人工智能学会（caai）、中国图象图形学会（csig）、中国民族贸易促进会主办，重庆邮电大学承办。与会专家学者围绕计算机视觉、图像处理、模式识别与机器学习研究领域等国内外前沿热点进行深入研讨。

本次大会共计开展数十场ai领域学术精彩纷呈的研讨报告，同时也吸引数千名来自学术界及产业界的视觉和机器学习领域青年学者参与，为计算机视觉、图像处理、模式识别、多媒体与机器学习研究领域内的青年学者们提供了一个深层次、纯粹学术及技术交流的舞台。

在大会的 valse 2014 workshop 环节，作为领先的人工智能厂商，合合信息就《文档解析与向量化技术加速多模态大模型训练与应用》主题进行了分享，针对当下智能文档处理所面临的技术难题以及合合信息在文档图像分析与预处理方面的技术研究展开讨论。

1、大模型与文档图像处理

2023年以chat gpt为代表的大规模语言模型风靡全球，同时以gpt-4v为代表的多模态大模型也倍受关注。多模态技术可充分利用文档图像的视觉和语言属性，并借助语言大模型已取得的优异性能和技术积累，正逐渐成为文档图像处理领域的热门研究方向。从微软对gpt-4v做的测评报告中可以看出gpt-4v在场景文字识别、语言形态、语言种类、手写识别、公式识别、几何图形识别、表格理解等方面的表现非常惊艳，针对复杂图表分析理解、文档抽取和推理结果也十分出色。

但文档解析领域的核心问题依然存在，文档图像分析识别与理解的技术难题主要包括以下方面：

2、文档图像解析领域的典型技术难点问题

文档中通常含有大量的图片、表格等非文字内容，除文字信息外，其版面往往包含页眉、页脚、表格、二维码等多种元素。在向文档解析系统输入文档图像后，系统会对文字部分和版面元素进行分析和识别，把若干行文字关联起来，从而获得正确的顺序与段落关系。在文档解析的过程中，有如下几个典型的技术难点问题：

1）版面检测

文档中有各种复杂的布局和版面（比如双栏、跨页、三栏等），需要准确地识别出文档中版面结构。

2）阅读顺序还原

要有效识别文档中的标题、段落、图像等元素，并还原文档的原始版面结构，以便后续的信息抽取和理解。

3）表格还原

文档中可能包含有各种样式的表格数据或文字，要有效地还原这些表格，就需要识别出无线表格和合并单元格等关键信息。

4）公式识别

文档中可能在不同的位置嵌入了各种公式，比如单行公式、行内公式、表格内公式等。

3、合合信息的智能文档解析技术

为了解决上述文档解析的诸多技术难题，合合信息将智能文档处理研究主题分成了以下六个模块：

合合信息的文档解析技术框架如下所示：

合合信息通过图像分析、文档解析、版面分析、信息抽取、安全保障和知识化管理等方法，实现了智能文档解析处理的全流程，提供了高效、准确和安全的文档解析处理服务。

4、合合信息文档图像专有模型

随着人工智能技术的不断发展，尤其是深度学习技术的广泛应用，多模态数据处理和大模型训练已成为当下研究的热点之一，这些技术也为文档图像智能处理和分析领域带来了新的发展机遇。

多模态大模型时代下的文档图像智能分析与处理的研究旨在通过运用多种数据类型，如文本、图像、音频等，并借助大规模深度学习模型的训练，来实现对文档图像内容的更加准确和全面的理解和分析。综合使用多模态数据训练大模型可以极大地提高文档图像处理和分析的效率和精度，进而推动相关行业的数字化转型和智能化升级。

为了将大模型与文档图像解析技术有效地结合起来，合合信息推出了基于深度学习技术的文档图像专有模型。

该模型基于深度神经网络结构，经过了海量数据的训练和优化，拥有强大的文档图像处理能力。它可以识别和提取文档中的文字、表格、图形等信息，实现自动化的文档解析和理解。在多个领域都有广泛的应用，例如金融、法律、医疗等。它可以帮助企业和个人实现文档的自动化处理，提高工作效率，减少人工成本。

对于不同模态的数据具有不同的特点和表达方式，如何有效地将它们进行融合和交互是一个关键问题。其次，多模态大模型需要处理更加复杂和庞大的数据，对计算资源和模型设计提出了更高的要求。另外，多模态数据的标注和训练也是一个挑战，因为不同模态之间的关联和对齐需要更加精细的处理。

合合信息将文档图像识别分析的各种任务定义为序列预测的形式（文本，段落，版面分析，表格，公式等等），再通过不同的prompt引导模型完成不同的ocr任务，支持篇章级的文档图像识别分析，输出markdown/html/text等标准格式，最后将文档理解相关的工作交给llm去做。

总的来说，文档图像大模型主要包括以下功能：

5、合合信息的文本向量化模型

在信息化时代，文本数据呈爆炸式增长，如何高效、准确地处理和分析这些文本数据，成为各行各业亟待解决的问题。基于此文本向量化技术应运而生，它可以将文本转换为数值向量（也就是计算机能够理解的数值形式），是自然语言处理中的一项基础技术。通过文本向量化，文本内容被转换为计算机可以处理的形式，从而便于后续的分析和挖掘工作。

近日合合信息基于其高效的文本处理能力以及强大的语义信息捕捉能力，发布了文本向量化模型 acge_text_embedding，该模型在 mteb 中文榜单（c-mteb）中一举夺魁，成为业内瞩目的焦点。

这次最新发布的acge_text_embedding 模型属于word embeddings模型，适用于情感分析、文本生成等复杂的nlp任务。这一模型获得mteb中文榜单（c-mteb）第一的成绩，相关成果将有助于大模型更快速地在千行百业中产生应用价值。可以看到acge模型在分类、聚类任务准确率很高；应用场景广泛，在相似性检索、信息检索和推荐系统中都有很好的效果；模型在设计时考虑到不同行业，不算规模应用的需要，支持定制服务，满足多样化需求。不仅如此，与榜单前五名其他几个模型相比，acge模型占用资源少；模型输入长度较长，可以满足上下文关联的需求；支持可变输出维度，可以根据具体场景合理分配资源。

合合信息算法团队在模型升级迭代过程中采取了多项措施，以克服行业中存在的技术难点，并不断优化embedding模型的性能和效果。在信息检索领域，该模型能够准确捕捉用户查询意图，提高检索结果的准确性和相关性；在自然语言理解领域，模型能够深入理解文本含义，为机器翻译、问答系统等应用提供强大支持；在情感分析领域，模型能够准确识别文本中的情感倾向，为企业决策提供有力依据。acge_text_embedding 模型具体主要应用领域如下：

6、合合信息

上海合合信息科技股份有限公司（简称“合合信息”），是行业领先的人工智能及大数据科技企业，致力于通过智能文字识别及商业大数据领域的核心技术、c端和b端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。

公司c端业务主要为全球个人用户的3个app产品，包括扫描全能王（智能扫描及文字识别app）、名片全能王（智能名片及人脉管理app）、启信宝（企业商业信息查询app）3款核心产品。公司b端业务为企业客户提供以智能文字识别、商业大数据为核心的服务，帮助客户切实解决了降本增效、改善风控、高效获客的业务痛点，提供了较高的技术附加值。目前已在银行、保险、证券、基金、汽车金融、供应链金融、政务、制造、物流、地产、征信等多个行业实现成熟应用。

7、最后

合合信息采用文档解析与向量化技术来加速多模态大模型的训练与应用，这种技术的核心是将各种类型的文档（如文本、图像、音频等）转换成机器可理解的向量表示，从而实现对多模态数据的统一处理和分析。

总的来说，文档解析与向量化技术为多模态大模型的训练与应用提供了重要的技术支持，能够加速模型的训练过程并提高模型的效果和性能。

VALSE 2024 计算机视觉与机器学习 | 文档解析与向量化技术加速多模态大模型训练与应用

2024年07月31日 • 机器学习 •我要评论

1、大模型与文档图像处理

2、文档图像解析领域的典型技术难点问题

3、合合信息的智能文档解析技术

4、合合信息文档图像专有模型

5、合合信息的文本向量化模型

6、合合信息

7、最后

相关文章:

自然语言处理Transformer模型最详细讲解（图解版）

机器学习入门基础（万字总结）（建议收藏！！！）

基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究

点云感知(一):基于深度图的聚类算法与源码解析

发表评论


验证码：