搜索引擎论文

您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文 >

当前搜索引擎的价值反思、运行原理及技术创新

来源:未知 作者:7号编辑
发布于:2014-05-24 共4888字
论文摘要

  上世纪中页,传播学家麦克卢汉曾在《理解媒介:论人的延伸》中提出:“媒介是人感觉能力的延伸或扩展”。这一经典概念的重要意义,在于将人的单一感官和媒体的传播特征进行了对应。例如,从视角延伸到印刷媒介,从听觉延伸到广播以及视、听觉共同延伸到电视。而时至今日,随着多元化新兴媒体形态不断出现,海量数据和信息充斥着我们的生活空间,一方面,理论界关于受众使用媒体时的需求碎片化,主动选择度提高等观点屡见不鲜,另一方面,对于智能媒体终端采集用户数据,掌控用户行为的论点也层见叠出。面对这种情况,我们不禁要问,大数据时代,人与媒体的关系应该如何定义?在数据洪流汇聚的信息海洋中,我们如何找到属于自己的舢板?我想,对以上两个问题的解答,都离不开本文探讨的核心——搜索引擎。

  目前,关于搜索引擎的研究视角各异,从技术、功能和产业等多元角度,研究者均有所涉猎,当然也都具有一定价值,在全面参考这些成果的基础上,本文选取以搜索引擎的价值、原理作为切入点,以主流搜索引擎的实践探索为例,思考未来这一重要新媒体应用的演进趋势。

  大数据时代搜索引擎的价值反思

  (一)搜索引擎推动麦克卢汉延伸理论创新

  新媒体的出现,打破了麦克卢汉理论中原本简单的对应结构:一方面,从传播特征上来看,以互联网为代表的新媒体传播平台,集合了以往所有媒体形态的信息传播特征,用户在使用新媒体之时,不但有眼睛和耳朵的参与,手指也被纳入了使用范畴。而通过手指输入的信息,忠诚体现着用户自身的媒体使用偏好和兴趣,这种人和媒体的新型沟通方式,在很多情况下,都需要以搜索引擎为载体才能够实现,换言之,搜索引擎是用户接触互联网海量信息的重要窗口。

  与此同时,按照麦克卢汉的观点,平面媒体是人眼睛的延伸,广播是人耳朵的延伸,那么搜索引擎不但是人手指的延伸,更是思维的延伸。

  原因在于,无论是眼睛还是耳朵,其功能都是收集外界的各种信息,而人们通过搜索引擎,可以实现对于互联网的信息定制和主动判断,定制和判断的基础来源就是思维的深度介入,因此,由于搜索引擎的广泛应用,新媒体才得以实现了人体智能和思维的延伸和扩展。

  (二)搜索引擎是连接用户和媒体海量数据之间的“信息中枢”

  另一方面,从传受关系上而言,媒体不但延伸着用户的视听感受,更收集着用户实时发出的主动指令。数据显示,仅谷歌一个搜索引擎,每天处理的搜索条数就超过10亿,处理的数据达20000TB,可以看出,在这种信息海量,用户主动,传受交互的信息格局中,搜索引擎是连接用户和媒体海量数据之间的“信息中枢”,对新媒体信息传递具有以下三个举足轻重的作用。

  其一,搜索引擎与用户需求重聚。近年来,对于新媒体用户需求碎片化的探讨很多。笔者认为,搜索引擎实现的是信息聚合,在媒体受众碎片化趋势日益显著的今天,信息聚合的背后其实是用户需求的重聚,分散的用户需求,通过相似的搜索词实现了重新聚合,在此基础上,通过对搜索内容的数据挖掘和分析,可以进行对于互联网社会流行趋势、舆论动态和用户特征的追踪和描述,在此基础上,可以基于不同特征,清晰描绘出的用户分层。

  其二,搜索引擎与社会信息公平。从传播学角度来看,由于社会不同层次对于知识和信息的接触范围和理解能力差异很大,“知识鸿沟”在社会广泛存在,整个社会的信息规模越大,知识沟的现象愈加显著,而搜索引擎的广泛使用,使得每个人都可以用同样的方式查询信息,大大拓宽了互联网空间中的信息传播通路,在促进社会的信息权力公平的同时,在很大程度上缩小了社会知识鸿沟。今天民众“万事不决问百度”观念被普遍接受,移动应用“知乎”的广泛流行,都印证了社会信息公平程度的提升。同时,由于搜索引擎自身不进行信息加工,所以减少了传统媒体传播环节中对信息的改写和衰减,不容易出现由于理解差异造成的信息内涵扭曲。

  其三,搜索引擎是社会动态镜像。2013年开始,我们感受到了大数据带来的强劲冲击,所有数据聚合的平台,都显示出了强势的扩张力和穿透力。电商向金融业务领域的渗透和延伸就是个中代表。相较于电商网站等专业信息服务机构而言,以百度、谷歌为代表全网搜索引擎从数据规模到数据范围,都更为庞杂,借助数据挖掘技术,足以洞悉社会发展过程中的方方面面。例如,谷歌通过对于搜索信息的数据分析,能够比美国疾病控制中心更早发现社会的流感病毒的流行趋势。海量数据的汇集和有效的挖掘方式,在反应社会发展动态的时候,在某些领域已经展现出了超越专业技术的效果。

  综上,开发搜索引擎的初衷,就是搜集信息,进行组织和处理后,为用户提供检索和展示服务。大数据环境下,我们看到,这一价值更加显著。究其原因,最主要的是搜索引擎同时掌握着全网的网页数据和用户的行为数据,从而拥有其它平台不可比拟的数据聚合能力,然而,更加深层次的原因,还应当从搜索引擎的运行原理角度进行深入分析。

  搜索引擎的运行原理及技术创新

  (一)运行原理与实际应用

  从信息技术的角度来看,搜索引擎的运行,离不开“数据采集、分类排序和查询响应”三个步骤。从诞生之日开始,搜索引擎的技术竞争,就集中在这三个层面。本文论及其运行原理,不是想老调重弹,而是要着重思考大数据环境下,搜索引擎在上述三个环节中出现的创新性探索。

  首先,在数据采集环节,最核心的技术是搜索引擎的调度算法。在大数据时代,海量数据考验着搜索引擎运营商的采集能力和更新速度,主流运营商纷纷将提高数据更新速度作为重点工作。以百度搜索引擎为例,它使用了高性能的“网络蜘蛛”程序(Spider)  自动的在互联网中搜索信息,抓取的信息形成了搜索引擎数据库。值得一提的是,在百度搜索引擎出现之前,最快的信息更新时间是30天左右,而百度的更新时间能做到一周一次。

  其次,分类排序环节,核心是程序对抓取的网站链接进行关联度和重要性方面的分析,进行分类排序,形成不断更新的搜索引擎数据库。用户的搜索行为,实质上就是搜索引擎数据库内部的搜索,而不是接到用户指令后对于整个网络的实时搜索。面对大数据时代的海量信息、快速更迭,搜索引擎运营商存储的网页规模和更新速度也成为了衡量搜索引擎水平的要素。例如,据统计,百度目前的数据库总量达到6000万页以上, 并且还在以每天超过30  万页的速度不断增长。庞大的数据储量和更新速度,共同支撑起了使用搜索引擎时的用户体验。

  最后的查询响应环节,简而言之,就是根据用户输入的搜索词,将经过排序的网站链接呈现出来。这一环节虽然看似简单,然而在实际运行中却是搜索引擎实现市场价值的关键,因为无论后台运算多么精细,对于媒体而言,只有最终呈现在用户眼前的信息才具有影响力和市场价值,搜索引擎的竞价排名产生的丰厚利润,就是市场对于其信息呈现环节的营销价值高度认同的表现。

  大数据环境下越来越强调信息的关联性,搜索引擎在响应环节推送给用户的信息量较之过去显著增加。

  例如,百度页面上,除主要搜索结果外,在画面右侧还提供了更为丰富的推荐或相关信息。在实际使用中,笔者发现,右侧信息的选取,是基于百度对搜索词的特征分析,例如,我们分别搜索“大丹犬”和“蝴蝶犬”

  两种不同的犬种,可以发现,前者页面右侧的信息标题为“其它很大的狗”,而后者则为“其它很粘人的宠物狗”,由此可见,后台分别选取了“大”和“粘人”这两个特征,进行了自动信息聚类和呈现。

  (二)运行原理与技术创新

  从上文的分析可以看出,在长期的运营实践中,搜索引擎在数据采集、分析排序和响应展示层面正在发生着诸多变化。然而,搜索引擎作为信息中枢和新媒体窗口的作用却在日趋强化,与此同时,要做到与时俱进的发展,从搜索引擎运行原理层面,还需要在以下两个方面实现创新:

  其一,在当前的媒体环境下,海量数据带来的搜索引擎数据库压力正在增加。未来,随着ASP、PHP、JSP等编程工具带来的动态网页数量激增,如何有效解决动态网页的数据采集问题成为搜索引擎技术领域争夺的焦点,主流搜索引擎的技术团队,必将会将随着网页编辑技术的更新而升级网络蜘蛛程序作为自身的工作重点。有资料显示,目前百度已经基本成功实现了动态网页的收集和索引。

  其二,对大数据的应用、分析能力非常关键。如前文所述,搜索引擎的主体是规模庞大的数据库,大数据背景下,对于海量媒体信息的数据挖掘能力显得格外重要,新的逻辑、算法和标准正在实践中不断酝酿。

  搜索引擎的发展趋势思考未来,随着大数据时代新媒体的数据流日趋庞杂,搜索引擎的重要价值也将更加凸显。具体而言,未来搜索引擎的发展,主要有以下三个趋势:

  (一)用户体验和商业价值的双赢未来,搜索引擎运营商的竞争

  将从最初的对搜索精度和速度优势的比拼,快速过渡到对于用户体验和用户黏着度的争夺。一方面,搜索引擎响应用户的信息展示将从“单条信息”逐步过渡为相互关联的“信息系统”。以百度为例,用户的搜索结果除了直接相关的内容显示在页面主体部分之外,右侧还充满了由关联信息组成的多条相关信息,我们输入一个简单的词,搜索引擎会在浩若烟海的信息海洋中,为我们抽取出一个由相关信息组成的完整系统。

  另一方面,搜索引擎人性化程度的提升将决定其商业价值的实现,例如,解决用户的实际问题的能力。百度作为最了解中国国情的搜索引擎,已经成为民众搜索民生信息的重要渠道,尤其是一些具有“中国特色”的民生信息,诸如“准生证”、“港澳通行证”办理流程等信息。同时,搜索引擎的个性化还表现在对于不同人群和需求的对应产品设计,例如百度推出的大字体并支持手写输入的老年搜索、使用图片做“关键词”的谷歌图片搜索以及通过曲调搜寻音乐的搜搜哼唱等。总之,无论是解决用户实际问题,还是新产品开发,未来只有提升用户黏着度,才能实现更为广阔的商业价值拓展。

  (二)业务发展和行业规范的平衡

  未来,随着搜索引擎业务系统的日益丰富,社会影响力的不断加强,从监管部门、立法部门和从业机构本身,都必须身体力行地加强行业规范探索,实现行业规范管理和规范发展。

  其中,有两个最为核心的问题需要思考。其一是搜索引擎推广的管理归属问题。即竞价排名、推广信息等业务,是广告还是技术服务?长期以来没有定论,导致了监管主体缺失,管理制度空洞。笔者认为,就中国国情来看,解决这一问题的关键不是从理论层面进行深入讨论,而是应当由政府部门早日有一个定论,归属信息服务也好,归属广告也罢,只要能够将其纳入到某一成熟的管理体制之下,都胜于现在无法可依,无章可循。应当先保证搜索引擎业务的总体健康发展,再来探讨细化的管理归属调整问题,否则仅从理论层面各执一词,必然造成推诿拖延,无益于搜索引擎行业的规范发展。

  第二个需要规范的问题是对于用户隐私的保护。如前文所论,大数据时代,搜索引擎具有非常强大的用户数据聚合能力,未来搜索引擎业务的拓展,与用户数据的关联度越来越大,如果在使用这些数据时,没有规范的制度约束,很容易出现用户隐私泄露,侵犯个人信息权益等严重问题,具体而言,对于用户数据的归属问题,数据的使用边界,数据挖掘结果的呈现方式,受益分成等问题,均有待于在实践探索中,逐步建立合理、规范的制度和流程。

  (三)企业品牌和社会责任的协调

  套用好莱坞电影《蜘蛛侠》中的一句台词:今天的搜索引擎企业是“能力越大,责任越大”。未来,搜索引擎企业在承担社会责任中发挥的作用,将成为其品牌建设中的重要因素。

  从个人用户层面来说,大数据时代,搜索引擎不但是每个用户在信息海洋中的舢板,更是连接用户和媒体海量数据之间的“信息中枢”。从国家宏观层面而言,搜索引擎作为网络战略枢纽,承载着大量的经济、政治、国防信息,其中有很多关于国家安全和社会稳定的内容。其中难免鱼龙混杂、良莠不齐,亟待通过强化搜索引擎企业的社会责任意识,在社会舆论安全和信息传播伦理道德领域发挥积极、正面的引导作用。

  综上,本文以大数据时代的环境为背景,从搜索引擎的价值、原理和趋势三个方面,思考了搜索引擎的现状和发展,这一今天司空见惯的媒体应用,从诞生之日起就成为了连接网络虚拟世界与现实生活的桥梁;今天,当网络越来越具象,虚拟空间与现实世界越来越同步,搜索引擎对日常生活和社会发展中的影响力也在不断加强;未来,我们将能够更加深刻地体会到这种影响带来的力量,见证搜索引擎新的成长和突破,真正实现从“信息舢板”到“数据之舟”的蜕变。

作者单位:
相关内容推荐
相关标签:
返回:搜索引擎论文

1.将微信二维码保存到相册

2.打开微信扫一扫从相册识别

1.点击下面按钮复制QQ号

3008635932

2.打开QQ→添加好友/群

粘贴QQ号,加我为好友