达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

达观企业级搜索引擎功能详解,实现对企业内各形态信息全方位、高效率统一检索

 

搜索达观数据企业级搜索引擎,主要针对通信、能源、制造业等行业,解决企业内信息检索的问题。通过对散落在各系统中的数据、内容进行统一管理和高效利用,实现对企业内的数据、文档、人物、图片、表格等各形态信息进行全方位、高效率的统一检索。达观数据企业级搜索引擎的核心功能包括:多源异构数据接入,数据解析,索引创建配置,搜索意图识别,搜索召回与排序等功能。
一、多源异构数据快速接入
要实现对企业内数据的统一搜索,首先需具备企业内多源异构数据的接入能力。达观企业级搜索引擎支持两种方式接入数据:数据上报和数据拉取。
搜索1

图1 通过数据上报方式接入数据

搜索2

图2 通过数据库连接的方式拉取数据

二、对接入的数据自动解析
数据解析包括各类文档解析器、PDF解析器、OCR引擎等对接入的数据如各类文档、图片、表格进行解析,形成各个待检索字段。
三、自定义创建配置索引,高效适配多场景搜索需求
索引创建配置用于自定义构建索引。比如企业内的一篇知识文档,往往包括标题、正文等内容字段,以及作者、时间、类型等元数据字段。用户在搜索时,哪些字段可被搜索、哪些字段可以做筛选、哪些字段在搜索命中时需要高亮,这些自定义设置功能可以通过达观企业级搜索引擎的索引配置页面来实现。
搜索3

图3 索引配置页面

四、利用语义分析识别搜索意图
搜索意图识别是利用自然语言处理技术,分析用户的搜索Query,理解用户真正的搜索意图。比如用户搜索“最新的产品说明书”,“最新”一词,用户真实的搜索意图是找最近更新的产品说明书,而不是内容中包含“最新”一词。所以除了搜到产品说明书外,用户还希望按照产品说明书的更新时间/发布时间进行排序。
五、具备多种搜索召回和排序策略
搜索引擎是从海量信息中快速查询用户需要的内容,这个过程要求“搜的准”,“搜的全”,“搜的快”。所以会分为召回和排序两个阶段。召回是预筛选,排序是对预筛选的结果,按照用户需要的程度进一步排序。比如即将到来的2022年足球世界杯,全世界球迷都希望找到冠军球队。召回相当于世界杯的预选赛,各大洲筛选出有实力的球队,排除鱼腩队伍,形成32强;排序相当于世界杯的正赛,32支球队角逐最终冠军。为什么不让全球所有有参赛资格的球队直接踢正赛呢,因为这样会导致赛事周期拉长,即搜的不快。达观企业搜索引擎在召回阶段,设计了索引配置功能(见图3),用户可以自定义设置哪些字段可以被搜索,以及这些字段如果被搜索命中以后将获得多少积分,积分多的会进入召回名单。通过这个功能就可以满足各种场景的需求,比如针对一些标题概括性比较强的文档,可以设置标题字段的命中积分高于正文字段;而针对标题党这类内容,就可以设置正文字段的命中积分高于标题,或者干脆设置标题不参与搜索。达观企业搜索引擎在召回结果的排序阶段,设计了多种排序逻辑,包括按结果与用户搜索意图的相关性排序,按搜索结果本身的权威性或质量进行排序,按用户搜索行为/用户职责岗位排序等。

相较于传统检索技术,达观数据企业级搜索引擎具备以下优势:
1
 智能分析-更深入的内容理解
运用自然语言理解、OCR、知识图谱等技术对数据进行深入的加工处理,实现更深入的内容理解含义。
2
智能搜索-更多元的搜索方式
支持对文档、图片、表格、网页等多种格式的搜索,支持语义搜索、结构化查询、图谱问答等多种方式的查询。
3
智能展现-更全面的内容呈现
支持人物卡片、数据图表、知识图谱、系统表单的知识卡片,根据用户行为数据自动提升搜索排序效果。
4
智能管理-更完善的管理应用
系统数据源、统计分析与搜索配置管理,实现对内容的全面管理;数据分析、配置管理与效果评估等模块,让系统的调试效果可见;容器化应用系统一键部署,自动化监控让服务稳定可靠。

如您对我们的产品感兴趣,请点击下方官网申请免费试用。