搜索引擎

一门检索技术
搜索引擎是一种信息检索系统,设计用于查找存储在计算机系统中的信息。搜索引擎有助于最小化查找信息所需时间。最知名和常见的搜索引擎形式是网络搜索引擎。[4]网络搜索引擎(Search Engine)是一种能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统。它是一些在Web中主动搜索信息并将其自动索引的Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务。搜索引擎的数据检索方式主要是关键字的匹配方式, 如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等 。能为用户提供全文索引、约束性检索、基于布尔关系的查询方式,并对查询结果根据某种算法和规则评分和排序。[5]搜索引擎主要应用于Web搜索、学术搜索、地图搜索、购物搜索、博客搜索、图书搜索、音乐搜索、移动搜索等领域。[1]
1990年,加拿大麦吉尔大学师生开发Archie。Archie的出现奠定了搜索引擎的发展基础,被公认为现代搜索引擎的鼻祖。[6]1994年第一代搜索引擎诞生,它以人工分类目录为主,代表厂商是Yahoo。1998年,以Google为代表的第二代搜索引擎出现在互联网上,其主要特点是提高了查准率。[7]20世纪90年代以来各大搜索引擎公司出现,世界知名互联网公司借搜索引擎创业并发展壮大。从最早的链接分析、网页排序,到机器学习技术不断的与搜索引擎技术相融合,再到如今大语言模型接入搜索引擎,科技的发展大大改善了搜索质量和搜索体验,成为用户主动获取互联网信息最重要的渠道之一。[8]
搜索引擎可以分为通用搜索引擎和垂直搜索引擎两类。通用搜索引擎检索多种类型信息,如网页、图片、视频等,而垂直搜索引擎针对特定领域。[1]搜索引擎结构包括爬虫、索引器和检索器。关键技术包括网络爬虫、大数据处理、数据挖掘等。搜索引擎通过这些技术和结构来帮助用户检索并获取所需信息。[5][3][9]

工作原理

网络搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。[10]