Menu
025-8556-1577

智能搜索时代:且看知识的力量

发布日期:2021-03-04 浏览次数:1991

一、漫谈搜索的前世今生

  搜索是伴随互联网的发展而产生和发展的,互联网已成为人们学习、工作和生活中不可缺少的平台,几乎每个人上网都会使用搜索引擎。搜索是基于网络爬虫、检索排序、网页处理、大数据处理、自然语言处理等技术,根据用户需求与推荐算法,运用特定策略从互联网海量信息中检索出匹配信息反馈给用户的检索技术,为用户提供快速、高相关性的信息服务。

  随着越来越多的信息被网络所连接,从社会乃至于企业,都进入了信息爆炸的时期,伴随着人们对未知事物探知的潜意识,搜索技术得以飞速的发展。搜索引擎大致经历了四代的发展。

● 第一代搜索引擎:人工分类目录;

● 第二代搜索引擎:关键字查询;

● 第三代搜索引擎:自动聚类、分类等人工智能技术引入;

● 第四代搜索引擎:面向主题搜索,采用特征提取和文本智能化技术;


  搜索技术的不断演进与发展,在逐步的改变我们的社会环境,同时也在潜移默化的赋能于我们的工业企业。随着1990年后企业对于信息化的愈发重视,企业内部的数据逐渐从传统的纸质数据向电子化、数字化形式转变;数据的存储由分散的线下留存,转变为基于业务系统的集中存储,例如:ERP、PDM、PM、MES等系统。在数据形式与存储方式发生变化后,传统的信息检索方法也在随之转变。因此搜索技术逐渐融入到各业务系统中,成为各成熟业务系统不可或缺的组成。


二、传统企业搜索难以应对数据应用的更高要求

● 企业数字化建设推进数据持续爆炸增长:

  过去,IT 掌控下的数据十分规范,数据来源于内部运营的各类系统,但随着公司业务量的不断增长,数字化建设的不断提升,数据量也在爆炸性的增长。现在,全球企业数据量每 14 个月就会翻一番,截止 2020 年,创建和复制的数据总量达到 44ZB。如何管理、搜索和处理这些数据,并将其转化为可用、有用的信息?

● 非结构化数据堆积如山,如何挖掘价值:

  据2014 年统计,需要进行存储的 80EB 数据中,近 90% 将会是非结构化数据(包含文件、模型等数据),非结构化数据是指任何位于数据库之外或以其他形式的数据结构存在的数据。搜索之所以会发展成为当今的主流工具,是因为它是有效处理非结构化数据的方式。但很遗憾,虽然搜索可以将非结构化数据进行分类,并从混乱的数据集中提取条理清晰的结果,但是在工业企业中能够提供该智能分析的系统却少之又少。

● 企业数据孤岛缺乏联系

  大量的信息孤岛各自保存数据,经常专供各种业务线团队使用,数据的价值在专业内部得到一定的挖掘,但缺乏关联的数据,往往使我们忽略了其存在的价值。例如:企业内的产品服务单据,作为产品运维留存的记录单据,该单据可作为产品改进、设计参考、维护经验等多维度为企业提供价值,然而由于其孤岛化的存储,难以发挥其核心价值。

● 需要更加人性化的搜索推荐

  在享受了互联网、电商等平台中搜索与推荐技术的甜头后,人们已经不再满足于企业搜索引擎所罗列出的相关信息条目,迫切希望享受与互联网、电商应用中同等的应用体验,对企业搜索能力的要求,从信息的基础检索,转变为完整解决方案的推荐。

  综上不难看出,传统的企业搜索能力已经无法满足需要。一旦公司意识到建立索引、添加标注和关键字都无法提供制定明智决策所需的信息,他们就会更进一步,深入开展剖析。

  他们寻求的答案是什么呢?“智能探知搜索”。


三、“智能探知搜索”赋能

  智能探知搜索远不止一个关于搜索的华丽辞藻,其包含一系列技术和能力。智能探知探索是搜索、内容分析和认知计算的结合体。智能探知探索不仅可以加速用户查找和浏览信息的速度;通过利用内容分析、机器学习和推理能力等高级技术,它还有可能扩充人类的专业知识。

  智能探知搜索能够利用对非结构化内容更深入的理解,提高反馈给用户的信息相关性,利用分析帮助用户掌握其中含义并据此采取行动。智能探知搜索集成整合了自然语言处理(NLP)、机器学习、计算机视觉和知识图谱等技术,实体和概念提取等功能可以用于改进探索,开展内容挖掘,揭露非结构化内容中隐藏的趋势和模式,从而获得新洞察。

  智能探知搜索有别于我们对传统搜索能力的认知,必将改进搜索,打破索引、标签的局限,对索引的内容进行语义的解析与分析;并运用AI人工智能计算方法,帮助用户更有效地利用内容;最终以用户需要获取的目标信息为中心,构建完整的信息推送视图,以方便用户基于合适的上下文,制定更好的决策。

  智能探知搜索包含的功能远不只是更出色的搜索功能那么简单。“探知”一词则是通过人工智能技术,模仿人类进行未知事物的探索分析,通过对人类语言、行为进行不断学习并形成假设,模仿人类的认知过程。因此我们需要从以下三个方向对现有的搜索能力进行重新定义:


四、智能化理解企业数据资产——多元化的数据解析(OCR、视频识别、模型特征等)

  未来企业内数据与知识的界限越发模糊,也就意味着企业内部各系统中存储的各类数据,都有可能成为用户在未来工作中所需的知识素材,这就要求我们的搜索引擎,可以对企业的数据体系进行多元化的识别与分析。智能探知搜索针对企业内结构化与非结构化的数据提供了丰富的识别手段:

● 结构化数据(数据库、结构化数据包等):可基于关键词检索的模式进行快速定位;

● 非结构化文档数据(Word、PDF等):可以通过语义切词等方式进行文本数据的解析与定位;

● 图片类数据(生产单据影像、试验验证影像):可通过内置的OCR技术对图片中的关键信息进行识别,并建立结构化的索引;

● 音视频数据:提供视频内容的全方位识别,支持识别视频内的事物、语音、文字以及帧标签,对视频进行多维度结构化分析。实物识别,基于深度学习方案,快速识别视频中的实物信息,并定位出实物所在帧画面,以及实物所在区域。通过音频转文字技术,将视频中的声音转换为结构化文字,并进行识别标签

● 模型类数据:对于制造业中应用广泛的模型类数据,基于模型特征提取技术,将三维模型中的特征信息进行有效抽取与挖掘,并结合相似度算法,实现基于模型特征相似性的三维模型的有效归类与检索。

基于模型特征的检索


五、智能化理解数据的业务相关性——基于知识图谱构建知识相关性

  企业内数据不再是孤立化的存在于各个系统中,通过业务系统已经逐渐构建了数据间的相关性,因此用户在进行数据搜索的过程中,为了更加准确的理解用户意图,探知用户检索的上下文环境。智能探知搜索通过引入知识图谱技术,从业务的视角对企业内的数据进行盘点与本体建模。

  知识图谱的构建方法通常有自顶向下和自底向上两种。


  两种模式都广泛应用于实际的智能探知搜索技术框架中,两种模式相辅相成、缺一不可。

基于知识图谱的故障根因分析

  智能探知搜索通过知识图谱技术,从人类认知的专业视角,对企业内部数据资源进行了多维度业务上下文构建,并结合用户的使用场景与检索关键词,基于上下文语境推送满足用户需要的数据,将离散化的数据转化为符合用户所需的知识。


六、智能化理解使用者意图——基于搜索语义与用户行为推送知识

  智能探知搜索提供对自然语言进行分析的语义检索引擎,封装了丰富的语义关系和多种分词滤镜(包括定义、组成、功能、参数、原因、结果、角色等标签),还支持用户自定义数字字典,贴合行业领域应用习惯。通过对用户搜索框中键入信息的语义分析,基于内置语义关系和分词库识别语句中的主谓宾及专业术语等内容,智能化理解用户搜索的真实意图,为其提供多元化的信息反馈。

  语义检索引擎在理解用户的同时,也是不断学习的过程,智能探知搜索基于用户的历史特征(历史搜索信息与关注信息)和实时业务行为构建员工360°画像库,实现企业数据知识的个性化推送。历史特征包括以用户个人信息为主的静态特征和与数据资源互动行为为主的动态特征。基于用户的历史特征聚类生成用户画像,再通过与用户实时业务行为进行协同过滤计算,发掘出当前用户的潜在数据/知识列表来作为用户各业务过程的推送依据。

基于语义的智能检索


七、总结

  如今,企业掌握着比以往任何时候都更多的数据。但是,在数据量日渐增加的背景下,提供切实价值的内部数据(知识)比例却持续下滑。智能探知搜索的能力构建,将对数据的隐藏价值进行充分、关联、持续的挖掘;对企业数据进行领域化、知识化的聚类;并基于用户的行为习惯、专业背景等进行360°全方位的关联搜索与知识推荐。智能探知搜索将作为企业数字化、智慧化转型“飞轮”中不可或缺的驱动力。

三黑战斗刘玥链接链接5g免费国产永久入口小老弟抹茶官网链接链接