计算机软件前沿技术论文范文
随着社会技术的不断发展,计算机技术领域的软件前言技术已经得到了快速的发展。下面小编给大家分享软件前沿技术论文,欢迎大家阅读参考。
软件前沿技术论文篇一:《分层技术在计算机软件开发中的应用》
摘 要:随着社会经济的不断发展,计算机技术领域已得到了迅速的提升。当前,计算机技术和网络技术已与社会的生活息息相关,越来越多的人类离不开计算机应用,由此也促使计算机软件系统越来越复杂,出现了较多的软件系统及手机APP,当前加强对计算机软件的开发已刻不容缓。分层技术在计算机软件开发过程中具有显著的优势,能够加快软件开发速度,确保软件质量,且可以减少计算机软件维护的工作量。文章主要结合了分层技术的特点,分析了分层技术在计算机软件开发过程中的应用。
关键词:分层技术;计算机软件;应用
在当前我国社会发展的过程中,计算机行业领域已在社会市场中取得了显著的成效,各行各业的计算机软件系统也得到了空前的涌现。随着市场竞争的不断扩大,人们对计算机软件开发技术的要求也越来越严格。如今,分层技术在计算机软件开发过程中取得了明显的作用效果,其不仅满足了社会发展的需求,对软件系统的结构进行了一定的创新,还提高了软件本身的质量问题,使用户减少了一定的维护成本,有效地促进了计算机领域的发展。下面主要结合了分层技术本身的特征,探讨了其在计算机软件开发过程中的具体运用。
1 分层技术的概念及特征
1.1 分层技术的概念
在计算机软件开发过程中,若要充分发挥分层技术在计算机领域中具有的优势,人们首先应对分层技术的概念及特征进行一定的认识与理解,结合掌握的知识及理论对该项技术进行深层次的运用。在计算机软件开发领域中,分层技术即是对软件系统进行抽象的分层实践,在计算机软件中存在着多个层次,每一个层次都代表着不同的含义,且由多个层次形成一系列的垂直系统,由上而下。同时,在开发软件的同时,每个系统层次之间既相互联系又相互制约,从而形成一个完整的软件系统。现如今,随着社会经济的不断发展及人们生活水平的不断提升,单层结构的软件系统已不能满足人们的生活需求,促使双层结构及多层结构的软件系统得到了一定的发展。随着技术的不断进步,高层次结构的软件系统已逐渐得到了发展的必要。由此可见,软件系统的开发是一个不断进步与发展的过程。
1.2 分层技术的特征
在计算机软件开发的过程中,分层技术具有着广泛的应用,主要是由于其本身具备明显的特征和优势。首先,在计算机软件开发的质量问题上,分层技术可以在很大程度上提高软件性能,保证在软件开发的过程中不同层次之间具有紧密的联系。从一定层面上看,分层技术主要着重于软件系统中不同层次之间的构架,确保其存在着必要的内在联系,便于在实践过程中将复杂多样的软件内容进行相应的简化,从而利于技术人员进行高效的工作。其次,分层技术在软件开发过程中具备明显的稳定性,当计算机软件某个系统出现了一定的变化时,其仅可能会对其上下层次系统产生一定的影响,并不会对计算机软件整体产生变化。此外,在实现不同软件之间的无缝连接时,分层技术也可起到一定的作用,主要是其具备自助开发和使用的成效,只需确保不同软件具备统一的连接端口,从而更加便利了软件系统的使用。
2 分层技术在计算机软件开发中的应用
2.1 双层技术的应用
在计算机软件系统开发的过程中,双层技术主要是由服务器和客户端设备组成的,其中客户端的主要功能是为客户提供一定的使用界面,方便客户理解软件的应用及其用途;而服务器的主要作用是接受客户端发出的信息,然后通过服务器本身的查询功能为客户提供一定的信息,达到为客户服务的作用。在客户使用数量不多的情况下,或者软件服务器本身的工作性能较好的情况下,双层技术能够达到很好的工作性能,但是一旦计算机软件系统的使用人数增加时,软件系统的反应时间、效率就会大大降低,甚至会给客户的个人信息造成一定的威胁,不能很好地满足客户的需求,因此计算机软件开发工作亟需高层次的软件技术加以完善。
2.2 三层技术的应用
相比较于双层技术的使用设备,三层技术在双层技术的基础上又增加了一个服务器设备,可以在一定程度上提高软件系统的使用效率。新增加的服务器主要用于存储数据,能够很好地提高客户端的处理信息能力,满足客户的使用需求。此外,三层技术相比较于双层技术来说,其还多增加了一个设备端口,其中三个端口主要是界面层、数据层、处理层,三个端口在使用过程中分工明确,能够有效地提高计算机的工作效率。但是在实际的软件开发过程中,三层技术仍然存在着一定的不足之处,这就需要软件开发工作人员对双层技术和三层技术的特点进行综合考虑与研究,旨在更好地提高计算机的使用性能。
2.3 四层技术的应用
随着社会经济的不断发展,生活中产生的数据库也越来越强大,此时三层技术在计算机软件开发的过程中无法满足系统的需求,因此则需要更高一层次的技术加以应用,从而便使四层技术在社会中得到了一定的发展。四层技术主要是在三层技术的基础上进行完善的,该技术的主要功能有处理层、Web层、数据层以及存储层,其主要应用过程是系统处理层对客户的需求进行一定的分析,然后将数据层中的信息结果传递给Web层,通过信息转化功能实现数据库与计算机的展现效果。
2.4 五层技术的应用
随着科学技术的日新月异,五层技术的发展也应运而生。五层技术的系统结构是在四层技术的基础上加以改善的,该项技术对计算机软件进行了更加细化的分层,形成了一定的资源层,使软件结构具备了多样性的组件,从而进一步提升了计算机软件应用的效率,有效地提高了计算机软件的质量。但是在现如今的实际生活中,五层技术在计算机软件开发过程中并没有得到广泛的运用,但也许在不久的将来,该项技术会得到人们广泛的关注,从而为计算机软件开发市场提供更大的发展空间。
3 结束语
在新形势下的社会发展过程中,人们对计算机软件开发的要求已越来越严格,为了使计算机软件能够有效地满足客户的各方面需求,即需要在计算机软件开发过程中对双层、三层、四层、五层甚至更高层次的技术进行深入的认识与研究,以此提高计算机软件开发的效率,促进计算机领域更大的进步与发展。
参考文献
[1]贾辉.刍议分层技术在计算机软件开发中的应用[J].中国高新技术企业,2015,30:59-60.
[2]邹涛.分层技术在计算机软件开发中的应用探讨[J].电子技术与软件工程,2014,13:90.
软件前沿技术论文篇二:《嵌入式软件系统开发技术及测试技术探讨》
摘 要:随着科技时代的快速发展,嵌入式软件系统应用发展也是非常迅速的,然而在硬件技术发展越来越稳定时,嵌入式软件系统稳定性却越来越差,因此嵌入式系统测试技术也应运而生了。本文通过对嵌入式软件系统特点的分析和研究,从而对其测试提出相应的方法。
关键词:嵌入式系统;开发技术;测试技术
嵌入式系统的广义上是指那些具有控制、监视等功能的设备以及那些具有辅助操作的机器。而在在狭义上的嵌入式系统是指由计算机通信技术为基础,以半导体等多项电子应用技术和具体的面向对象应用对象结合后的更新换代产品。因此往往是技术密集、投资强度大、高度分散、不断创新的知识密集型系统。不难看出嵌入式系统是硬件与软件的结合体,而且嵌入式系统在系统有繁简之分,越是繁杂的系统越是创新知识的密集。
1 嵌入式系统的组成及发展
一般情况认为嵌入式系统可以分成四个部分组成:微型处理器、存储器、输入输出设备和应用软件。嵌入式行业的发展得益于嵌入式微型处理器和卫星控制器的发展,这两种组件的微型发展大大加速了汽车电器等的大力发展,同时也促进了计算机等高级计算机设备的快速发展。由此看来即使是在未来嵌入式系统的发展也还是一个热门话题。因此在科技发达的世界里,对嵌入式系统的依赖性是越来越强,对嵌入式系统及其应用的稳定性和实时性要求也越来越高了,但是现在从掌握的各项数据上来看嵌入式系统表现出的稳定性却越来越令人担忧。
嵌入式行业是从二十世纪七十年代发展至今,经历了四十余年的发展,从最简单的单反机应用到现在的汽车,家电,通信装置等大规模应用,性能上也越来越突出,价格上也是越来便宜。
2 嵌入式系统的开发技术
2.1 嵌入式系统的特点
嵌入式计算机系统是是整个嵌入式系统中重要的部分,主要有三个部分组成:硬件层、中间层、软件层。嵌入式系统是指硬件和软件的结合体,这是嵌入式系统的最基本特点。
嵌入式系统内核小,比常见的windows系统的内核小很多,毕竟嵌入式系统一般是应用于小型电子装置,因此所占资源小是嵌入式系统的一大特点。
嵌入式系统的专用性很强。嵌入式系统的个性化很强,因为嵌入式系统中的软件与硬件的结合性很强,因此即使是同种品牌的不同型号产品,他们使用的嵌入式系统都会做出一定修改。
系统简单,在嵌入式系统中一般没有对系统软件和应用软件的严格区分界线,因为内存小等原因,要求嵌入式系统简单不复杂,容易调试等。为了提高系统的性能一般都是采用将软件固化在存储器芯片中。
2.2 嵌入式系统开发过程
对于嵌入式系统的开发一般需要先建立开发环境,而有经验的程序员一般都会选择在使用Redhot Linux系统,全部或定制安装,在上网上下载相应的CGG交叉编译器,也可以是安装厂家提供的相应交叉编译器。
在建立好编译环境后,再要选择开发主机,这是一项关键的选择,开发主机参数的一般都是那么固定的几种,在常见的就是配置MINICOM,一般的参数为波特率115200 Baud/s,数据位8位,停止位为1,9,无奇偶校验,软件和硬件流控都设置为无。MINICOM软件的作用是作为调试嵌入式开发板的信息输出的监视器和键盘输入的工具。配置网络主要是配置NFS网络文件系统,需要关闭防火墙,简化嵌入式网络调试环境设置过程。这些步骤都至关重要不容有错。
建立引导装载程序BOOTLOADER,然后从网站上下载一些源代码,其中包括大量嵌入式系统驱动程序代码。然后根据芯片的型号种类进行及源代码的修改工作,而有些芯片没有内置引导装载程序,这就需要程序员来编写开发板上Flash的烧写程序。但是有的不能编写烧写程序,这就需要程序员对开源代码上进行修改,使开发板上可以编写相应烧写程序。
下载已经移植好的Linux,再添加定制硬件驱动程序,然后进行调试和修改。
建立根文件系统,可以在网上下载相应软件进行工裁剪,时期产生哪一个最基础的根文件系统,然后根据产品应用的需要来添加其他的应用程序,根文件在系统中存在的形式一般为只读文件是不能修改的,因此要使用相关的软件将修改好的根目录系统烧写成镜像文件。
建立应用程序的Flash磁盘分区,这是一般是采用特有的文件系统,这需要在内核中提供相应的文件系统驱动,这个根据使用Flash的不同进行不同的磁盘分区。
开发应用软件,这个可以存放在根文件系统中,也可以存放相应的Flash磁盘中,有的应用软件不存放在根文件系统,而是直接将应用程序与内核设计在一起。
最后就是烧写内核,根文件系统和相应的应用程序,再就是中的测试产品,调试产品,使用产品,最终就是发布产品。
2.3 嵌入式系统的开发技术
虽然嵌入式系统开发的流程在外行眼里看起来很是繁杂,我们也可以看出其中有很多的修改源代码,烧写程序的过程,但是这些过程在程序员眼中是一步也不能出错,甚至有些还可以优化,这是在开发嵌入式系统原则。在开发系统上,程序员必须遵守认真负责的态度,在烧写程序后,必须认真检测烧写程序的真确性等。
2.4 嵌入式系统的广泛应用
在科技快速发展的现在,几乎所有的电器中都应用了嵌入式系统。达到航空母舰,导弹,小到微型处理器,微型控制器都在使用嵌入式系统。如今嵌入式系统的发展的是日新月异,不同产品使用嵌入式系统大同小异,这些嵌入式系统的原理大致相同但是在应用上却不尽相同,这是嵌入式人才需求的原因。
3 嵌入式系统的调试
3.1 嵌入式系统软件的调试
在开发过程就可以看出,在匹配好CPU之后,其他的一些驱动,大多是程序员们修改源程序后编写的相应驱动程序,还有有的是将应用程序和内核设计在一起了,因此测试,过程更是发杂。
3.2 嵌入式系统的调试
主要分为几大步骤,一是驱动调试,二是分组调试,三是整体调试,四是最终调试。对于驱动调试,是建立在修改源代码后程序员们编写的磁盘驱动,CPU驱动等驱动程序,这些程序都是需要调试,但是这些调试毕竟只是一种粗率的调试,并不能很好的观测到最终的整体效果。接着就应该进行分组调试任务,这是将所有驱动应用程序烧写在一起后的一次阶段性的程序调试,这次也只能是在理论上测试嵌入式系统的稳定性和实用性,还是无法真正的去了解硬件与软件结合在一起的真实效果,但是这一步也可以检测出一些应用软件与系统结合后的兼容性等问题,这里也可以检测出程序的合理性等问题。再就是整体调试,就是将软件与硬件结合在一起,检测最后的整体性效果,软件与系统的兼容性也是很关键的,这一切都是很发杂,这一步是至关重要,是重点监测软件与硬件间的兼容性和软件开发的合理性。最后是进行嵌入式系统组装进预期产品里,只是最终检测嵌入式系统是否达到了预期效果。
4 结束语
嵌入式系统的开发技术和调试技术,这两种技术在很多时候是可以交错的,比如在开发嵌入式系统时就有几次的开源代码的修改和程序的烧写过程,这些过程中都是程序员调试的关键时期,有一句谚语叫做“千里之堤毁于蚁穴”,而在每一次的源代码修改或烧写过程中如果出现了失误,或一些bug的忘了处理,那么系统在以后的使用中会存在一些漏洞的。这些都是细节引起的失误,这些也都是可以避免的,只要在调试过程中,认真的做好了每一步,就可以就一点一点的加强嵌入式系统的稳定性。
参考文献:
[1]耿玉菊.嵌入式系统开发技术分析[J].牡丹江教育学院学报,2009.
[2]秦春燕,姚竹亭.嵌入式系统软件测试的研究[J].机械管理开发,2008.
软件前沿技术论文篇三:《搜索引擎的前沿技术》
人工智能中的机器学习技术在基于语料的文本信息处理中获得了快速发展,同时基于统计和经验的方法在超出传统机器学习的范畴之外也发展出一些独特的方法和技术,这些应用将会使下一代搜索引擎在技术上取得突破。
搜索引擎并非只是一个网络上的应用程序,它要用到信息检索、人工智能、自然语言处理、分布式网络并行计算技术、多媒体技术、数据库技术、数据挖掘技术、数字图书馆等多领域的理论和技术,具有很强的综合性和挑战性。
从技术发展角度讲,随着计算机的发展和互联网的普及,对海量文本信息处理的需求越来越迫切,这使得人工智能中机器学习技术在基于语料的文本信息处理中获得了快速发展。同时,基于统计和经验的方法在超出传统机器学习的范畴之外发展出一些独特的方法和技术。但是,自然语言处理中仍然存在许多尚未解决的问题,甚至是影响到自然语言处理的基础性的核心问题。检索专家Bruce R.Schatz预测,在自然语言理解没有取得突破性进展之前,基于概念语义空间的文本信息组织与检索,将在本世纪前10年起主要的作用。
语义索引
如何处理海量文本信息,特别是随着网络的飞速发展,如何快速为海量文本信息建立分类目录有效地组织网上海量信息,以及如何建立具有某种程度语义的索引机制就是当前乃至今后相当一段时间的研究热点。
美国Arizona大学的陈火斤钧(Hsinchun Chen)教授首先提出基于概念的文本自动分类与语义检索。概念语义空间实际上是基于概念空间的语义索引。这是为克服关键词检索过程中由于检索词的差异导致检索结果差异而建立的支持相关概念的索引机制。该项技术成功地采用机器学习的方法实现了大量文本的自动分类、标注与检索。他采用此项技术成功地承接并完成了美国涉及多个领域的文本信息处理项目。
所谓概念语义空间,就是对文本集建立的能反映文本集中概念之间语义关系的一个索引。概念语义空间与文本检索、搜索引擎、知识管理密切相关,它是基于目前自然语言处理技术的进展状况而产生的。
这里所说的概念在形式上的表现是词,但并不是所有的词都是概念。概念是从语料中抽取出来的用于表明一类文档特征的标识词,一类文档可能有不同的概念来标识。上面所说的语义词典包括同义词、近义词。
采用语义词典是建立语义索引的一种机制。语义词典往往是手工建立的,但这样建立的词典不能针对要处理的语料提取语义关系,会降低检索性能。例如,当我们提到“钱钟书”时就会自然联想到“围城”,提到“非典”自然就想起了“SARS”,如果语义词典没有建立这种语义关系(事先手工编辑的语义词典很难提取这类“联想”的语义)。当我们用“非典”检索时,就不能返回仅包含“SARS”的文本; 同样仅用“钱钟书”检索,未必能检索到钱钟书所有著作的信息。解决这一问题的一个重要途径是共现分析。通过统计同一类文本中两个词在同一篇文本中的共现率,可以发现类似的语义关联。这种语义联想的激活可以通过Hopfield网络实现,网络的权值则由共现率确定。随着技术的进展,还有许多其他自动形成语义词典的方法不断提出,其中很多都和机器学习有关。
查准与查全的平衡
评价文本检索系统性能的一个关键概念是“相关性”(relevance)。它是用来判断获取的文档集合对于用户需求满足的程度。相关性是一个主观的概念。相关性的度量不仅仅依赖于用户的查询和所搜索的文档的集合,还与用户的个人需求、偏好、知识、语言等有关系。
通常将“查准率”和“查全率”这两个指标共同用来衡量检索系统的性能。查准率表明系统的精确性。查全率反映了系统的覆盖性。这两个量不是独立的,其中一个指标的提高往往以另一个指标的降低为代价。
查准率(Precision)是信息检索的性能指标,定义为被检索到的相关文档数除以所有要检索的文档数。
查全率(Recall)是信息检索的另一个性能指标。定义为查找到的相关文档数除以集合中全部相关文档数的值。
在实际应用中,有些用户更加注重查准率,而另外一些用户则更加注重查全率。也有专家引入一个综合了查全率与查准率的指标来衡量系统的性能。查准率比较易于度量。对于所获取的文档集合,只要判断每一篇文档是否和给定查询相关就可以了,其计算是比较直接的。而对于查全率的计算就相对困难一些,因为这意味着对于给定查询,必须计算整个文档集合中相关文档的数目。当文档集合过大时,这是不可行的。
检索返回结果过多,对于用户来说冗余信息过多。解决这一问题的途径之一是对检索结果进行分类,目前主要是人工选择有用信息,这样的人工工作量太大,另外就是对检索结果进行实时聚类,但这样做处理速度跟不上,等待时间过长,用户难以忍受。还有一种方式是事先分类并分类检索,返回的结果也分类显示,但对海量数据及时分类其粒度不可能太小。值得尝试的办法是基于事例的学习,就是对搜索到的好的结果作为样本,让机器再次搜索。
机器学习技术与自然语言处理
统计方法在语音识别方面的成功,促进了类似方法在自然语言处理其他方面的应用。现在各种机器学习方法几乎都应用到了自然语言处理的不同方面,包括词法、句法分析、歧义消除和理解、会话过程和信息抽取以及机器翻译。然而,传统的人工智能中的机器学习对计算语言学的研究贡献有限。这是因为基于机器学习和基于经验的自然语言处理需要通过相互交流、相互促进才能发展。
现在自然语言处理中大多数机器学习的研究都借助了语音识别中特定的统计技术,如隐马尔科夫模型(Hidden Markov Models, HMMs)、概率上下文相关语法(Probabilistic Context Free Grammars, PCFGs)。其他各种学习算法包括决策树、规则归纳、神经网络、基于示例的方法、贝叶斯(Bayesian)网络方法、归纳逻辑程序、基于理解的学习。
遗传算法也能用于自然语言处理,并且在特定的应用中有其优势。另外,一些特别的机器学习算法如主动学习、推进(Boosting)算法、修正学习、有知识背景的构造归纳学习、理论修正、经验评价法、PAC (Probably Approximately Correct)学习等对处理自然语言问题是非常有用的。事实上已经有一些文献提出了利用机器学习技术进行自然语言处理的特定方法。这表明目前的研究已经不局限于研究UCI(University of California,Irvine)数据库中由标准数据集提供的特征向量的分类问题。计算语言研究组织和机构已经收集了很多有趣的涉及许多自然语言问题的文本数据集。其中有些问题通过选取合适的特征可以退化为标准的分类问题,但是其他一些问题需要采用或建立复杂的数据结构,如完备的句子或解析树来解决。
以上表明,机器学习能为自然语言处理提供一系列非传统的学习方法的同时,还能提供一般的方法论的指导。反过来,自然语言处理为机器学习提出了各种有趣的和富有挑战性的问题。这些问题常常具有一些特定的特征,如: 非常大的特征空间和极度稀疏的数据。另外,统计语言学对机器学习的一个不太明显的潜在贡献是引入了一些新的机器学习算法,如最大熵方法、指数模型方法。这些方法在传统机器学习的文献中没有很好地论述。它们可能会像HMMs和PCFGs在分子生物学中的成功应用一样有效地被用于其他机器学习问题。
机器学习技术与自然语言处理任务有着密切的联系,表中列出了他们之间的关联关系。1999年Claire Cardie和Raymond J. Mooney编辑出版了机器学习杂志的一本专缉,该专辑收集了当时在自然语言处理领域机器学习技术的典型应用。其中还介绍了一些端到端的自然语言应用,如Golding & Roth 的感知上下文的拼读修正系统,以及完整的信息抽取系统。该专辑特别提到Soderland的概念抽取模式和Bikel的能够准确识别姓名、日期、时间、数字的系统。
目前,自然语言处理和信息检索在技术上没能很好地融合。在文本检索过程中如果只使用关键词匹配技术往往会遇到词汇不匹配,这是因为存在表达差异。关键词匹配检索模式通常基于这样一种基本假设: 仅在一个文档含有与查询完全相同的词汇时,它们才相关。这种相关性匹配实际上是基于表层的匹配(Surface-Based Matching)。然而,人类的自然语言中,随着时间、地域、领域等因素的改变,同一概念可以用不同的语言表现形式来表达。因此即使对于同一概念的检索,不同的用户可能使用不同的关键词来查询,而基于表层的匹配不可能检索到同一概念的多种语言表达形式。因此,词汇不匹配将导致系统的查全率降低。从根本上说是目前机器对自然语言不能完全理解,缺乏对概念的语义表达支持。从目前技术状况来看,尽管我们付出了大量努力,但是要达到使计算机对自然语言完全理解这一目标还差得很远。对于解决上述问题在目前可能达到的目标是通过机器学习对原始语料中的概念之间的语义关联进行挖掘,对这些语义关联给出合理的表示,从而产生一些常识性的概念语义。
概念语义空间技术能很好移植到中文自然语言处理方面。中科院王永成教授领导的课题组开发出了一个中文概念检索系统,该系统支持具有一定模式的自然语言查询和基于概念的检索,并具有概念表达扩充功能; 用户可以添加系统原来不熟悉的概念,而且可以在用户的帮助下排除差错; 可以提供200字的精确摘要; 能进行新闻去重,并且改进了国际著名网站Google的排序算法; 系统的 Crawler(自动搜索软件)对各大新闻网站自行跟踪、更新,并且根据查询动态调整。
中科院计算所在国家自然科学基金资助下,采用概念语义空间的思想,实现了一个概念语义检索系统GHunt。该系统采用网络蜘蛛采集网页,以概念语义空间组织网页,对网页建立语义索引,实现基于概念的智能互动语义查询,以不同粒度摘要或全文方式展现; 对专题事件展现其来龙去脉; 对多媒体信息实现基于内容的图文联合检索。
建立概念语义空间涉及多方面的文本信息处理技术,包括海量文本自动分类聚类技术、自动标注技术、语义索引、语义联想检索技术。在这一系统中集成了网页采集多模式定向采集技术、基于粗糙集的文本分类技术、基于群体智能的蚂蚁聚类法、基于直接模糊聚类的概念聚类、专题自组织等自有研究成果。联索科技开发的IFACE专业搜索技术聚焦于适用和实用的更小搜索单位,利用基于内容的语义计算模型,发现精深的信息内容,识别信息并将信息整理好,拼装出表格化信息库,返回给用户更加准确而简化的内容,而不仅仅是得到包含关键字的网页。
搜索引擎其他新技术
1. P2P方式的搜索引擎
搜索引擎的实现可以采用集中式体系结构和分布式体系结构。当系统规模达到一定程度(如网页数达到亿级)时,必然要采用某种分布式方法以提高系统性能。P2P方式的搜索引擎就是基于此目的诞生的。搜索引擎的各个组成部分除了用户接口之外都可以进行分布: 搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度; 索引器可以将索引分布在不同的机器上,以减小索引对机器的要求; 检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。
P2P是peer-to-peer的缩写。peer在英语里有“(地位、能力等)同等者”、“同事”和“伙伴”等意义。因此,P2P也就可以理解为“伙伴对伙伴”的意思,或称为对等网。目前人们认为其在加强网络上人的交流、文件交换、分布计算、协同、深度检索等方面大有前途。
P2P软件能在互联网中迅速地普及,其中起到主导作用的是一款P2P文件共享软件Napster。Napster技术在1999年由当时在美国东北大学就读的Shawn Fanning开发成功,并迅速在众多MP3数字音乐爱好者中传播开来。人们可以通过Napster在网络上搜索自己需要的MP3音乐,并从任一台联网使用Napster的计算机中下载。P2P使得参与网络的各个主机都能够提供服务,同时也可以享受到来自所有其他主机所提供的服务。
P2P网络具有集中式服务网络所缺乏的优势: 可扩展性强、容错性好、成本低、充分利用分布资源。这些特点使得P2P架构在文件共享、分布式存储、搜索引擎、分布式计算、传感器网络、协作软件中有宽广的应用前景。同时其所强调的“以人为本”的理念,将深刻地体现于下一代互联网运营模式。
2.跨粒度检索
信息呈现个性化、可视化、综合化的特征,但现有信息检索结果一般没有粒度区别,只是若干检索结果的罗列,没有对检索结果的分析综合,没有形成统一的综合摘要提供给用户。另外很少对用户关心的领域信息进行处理。信息呈现方式单一,很少以可变粒度的可视化的图形方式呈现,特别是多篇摘要技术用于大量文档的综述。
概念语义空间的可视化
概念语义空间是在网络信息急剧增长的条件下产生的,它为快速、有效地组织海量、动态变化、半结构化的网络文本信息提供了机器学习手段。在自然语言理解没有取得突破性进展之前,基于概念语义空间的文本信息组织与检索,将在本世纪前10年起主要的作用。概念语义空间的可视化是近来发展的一个方向。采用概念语义空间技术将文本组织起来以后,如何向用户个性化地展现检索结果就成为一个关键问题。现有的逐个浏览网页的方式显然不能满足用户个性化的需求,因此最近有关主题探测与专题组织方面的研究在美国成为研究热点。这项研究将涉及自然语言处理的几乎所有方面。自然语言处理的研究成果将促进该项研究的深入开展。
4.it新技术论文