米兰-智能文档处理“百宝箱”助力文档应用开发—新闻—科学网

近日,第五届长沙 中国1024法式员节在湖南长沙进行。年夜会时代,合合信息面向泛博开辟者开放智能文档处置“百宝箱”系列产物(简称“百宝箱”)免费体验。“百宝箱”笼盖文档处置流程多节点,撑持批量、高效、正确解析多种版式的文档材料,解决文档解析精度低、解析结果评估难和年夜模子幻觉等问题,助力手艺人员实现个性化、高效力的文档类利用开辟工作。

文档处置包括解析界面可视化、提取要害信息、解析结果测评等多个流程,每节点都影响着数据解析的精度。在长沙 中国1024法式员节“模子与东西”论坛上,合合信息智能立异事业部研发总监常扬介绍了智能文档处置“百宝箱”三年夜产物,用保护不变、延续更新、可用性强的AI东西帮忙开辟者解决困难。

据常扬介绍,对泛博手艺人员而言,一款可以或许“开箱即用”的东西可以或许闪开发事半功倍。为解决小我和中小型企业手艺人员在开辟进程中碰到的“不服水土”问题,合合信息发布了一组文档解析界眼前端可视化组件,开辟者可以使用相干界面临解析结果进行交互,包罗提取各类解析元素,定位解析元素在文档中的位置,还原展现各级目次树等。另外,相干组件还撑持对成果进行编纂批改,便利利用者实现更高精度的解析结果,进行个性化开辟。

在文档处置和年夜模子RAG利用时,文本向量模子对检索质量和效力相当主要。“百宝箱”开源了合合信息自研的文本向量模子代码——acge模子,曾在2024年3月荣登C-MTEB榜单第一位,撑持长文档嵌入检索,统筹效力和机能,有用晋升年夜模子RAG利用结果。今朝在开源机械进修社区和模子库Hugging Face平台上,acge模子单月下载量达30423,助力愈来愈多的开辟者优化年夜模子机能。

本次年夜会上,“百宝箱”还为文档解析东西的挑选配备了“游标卡尺”。当前市道上的文档解析产物结果缺少同一尺度,为选择一款适合的东西,开辟者要破费较长时候进行对照测试。“百宝箱”中的“文档解析测评东西”从表格、段落、题目、浏览挨次、公式等多维度,为文档解析东西挑选供给定量测评根据和办事,并供给雷达图等可视化情势,便利开辟者直不雅地看到文本辨认、解析和翻译的成果,节流挑选时候。

文档解析可视化前端界面。合合信息供图

?

会上,常扬还分享了“智能文档处置百宝箱”在常识库搭建、智能文档抽取、年夜模子预练习语料与数据治理快速入库和文档翻译场景中的深度利用。以工程制造业为例,常识库的成立需要对产物设计方案、手艺规格书、工艺流程图、国度尺度文件等在内的多版式文档进行阐发,数据处置难度高。借助“百宝箱”和智能文档处置手艺,开辟者可以挑选出适合的文档解析东西并实现对复杂文档信息的精准提取。面临数据来历纷歧致、数据更新不和时等问题,开辟者还可使用acge模子优化常识库信息构建、检索和查询结果。

除中文文档,包罗生物医药、金融、外贸等行业在内的专项常识库还存在解析、翻译多语种文档的需求。分歧语种之间不但字体字形之间存在庞大差别,复杂语句切分也是一浩劫题。据悉,“百宝箱”可在保存文档原有格局的根本上做到批量、切确辨别并提取多语种信息,前端组件供给审校批改功能,用户可直接在界面上对解析成果进行优化,助力提高翻译质量。

版权声明:凡本网注明“来历:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来历和作者,且不得对内容作本色性改动;微信公家号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。

上一篇:米兰-顶科协奖得主丹妮拉·罗兹:“全球50%的智力来源于女性”—新闻—科学网 下一篇:米兰-中国科学院第七届科学节开幕—新闻—科学网