中文网页自动分类研究

中文网页自动分类研究

一、中文网页自动分类研究(论文文献综述)

李华欣[1](2019)在《面向新闻网页的主题识别及自动分类系统的设计与实现》文中研究指明随着互联网技术的迅速发展与普及,网络资源正在呈现爆炸式增长,其主要表现形式则是以网页这一载体而存在的。虽然互联网丰富的信息资源带来了一定的便利性,但是用户无法在海量的信息资源中快速定位到自己所需的信息,因此网页分类这个问题就应运而生。随着分类技术的发展,网页分类对准确率和效率提出了更高的要求;此外新闻网页作为日常获取信息的媒介,大多数新闻网站的分类标准并不统一,采用分类技术可以有效地对不同新闻网站的网页进行统一标准化分类与管理。首先,本文为明确系统的需求,对系统的整体任务概述、功能需求和业务整体过程进行了分析,阐明了设计新闻网页主题识别及自动分类系统的必要性。其次,针对新闻网页特性表示问题,对网页分类特征进行分析,完成网页内容特征选择工作;研究分析了LDA主题模型,完成新闻网页文本的主题识别,获取主题词,将得到的内容特征和主题词共同作为文本特征;提出一种特征项、特征向量和标签结构位置三元组的方式对网页特征集进行表示。通过对每一个文本特征引入对应的结构特征,并将其转化为结构向量,完成联合特征向量构建。再次,针对网页分类模型问题,分析与研究了机器学习分类模型和卷积神经网络分类模型。基于改进的文本和结构联合特征向量,提出一种网页文本和结构联合特征的卷积神经网络分类模型,使用该模型对新闻网页语料库进行分类。同时,将从语义空间上进行改进的关键词提取算法用于网页文本关键词的获取,完成网页文本概要展示。基于上述的研究与分析,本文明确了分类系统的整体架构和逻辑功能模块,其中包括数据获取、新闻网页分类特征分析和构建分类模型三个核心功能模块。针对系统的工作要求,重点设计基于联合特征的卷积神经网络分类模型,对数据集网页进行分类测试,同时与机器学习分类模型进行对比验证分析,准确度提高3%~4%左右,进一步验证了模型的性能。最后,利用本文的设计方案,设计并完成了面向新闻网页的主题识别及自动分类系统。系统可以应用于面向新闻网页的统一标准化分类管理,具有广泛的应用价值。

田程程[2](2018)在《多示例多标签网页分类关键技术研究》文中研究说明随着信息化的发展,互联网中的信息呈指数级增长。如何快速的从互联网中获取人们需要的信息已成为亟待解决的问题,因此,网页分类技术应运而生。该技术可以对网页进行归纳整理,帮助人们有效组织和利用网络上的海量信息。在众多网页分类算法中,多示例多标签框架下的支持向量机因其出色的学习能力,已成为机器学习界的研究热点。介绍了网页分类的基本流程、相关技术及常用算法,阐述了支持向量机基本原理,描述了多示例多标签框架基本理论,分析了多示例多标签框架下支持向量机的分类算法。针对求解多示例多标签框架无法利用标签之间依赖关系造成的信息丢失问题,借鉴有序分类器链思想,提出了OCC-MIMLSVM+算法,该算法对分类器进行合理组织,将标签之间的依赖关系融入到算法的训练过程之中,使训练出的分类模型能够对标签之间的依赖关系加以利用,提高了分类准确率。针对多示例多标签算法无法利用无标签样本进行学习造成泛化能力差等问题,借鉴半监督支持向量机S4VM算法的思想,提出了S4VM-MIMLSVM+算法,该算法将S4VM算法的思想融入至多示例多标签算法之中,充分利用大量的无标签样本来训练分类模型,在训练过程中同时考虑多个低密度分类器,解决了半监督学习中性能下降的问题,进一步提高了算法的泛化能力。最后,设计并实现了中文网页分类系统,将改进的算法应用到系统中,实验结果表明,本文改进的算法具有较高的准确率和较强的泛化能力。

田郸郸[3](2016)在《基于谱哈希的大规模网页分类算法研究与实现》文中研究表明随着信息时代的到来,互联网以其方便、快捷、信息量丰富等优势广泛应用于工作生活中,在给人们带来便利的同时,各种不良信息也充斥其中,如不对其加以控制和监管,必将对青少年成长及国家和谐安全稳定造成危害。基于网页服务分类的网络服务管控是对互联网信息进行有效监管的方法之一,其核心技术是网页分类技术,受到广大学者的研究。本文基于以上背景,以发改委项目“面向特定区域网络服务划分与验证系统”为依托,重点对大规模网页的分类进行了研究,在分析当前网页分类技术的基础上,对现有网页分类方法进行改进,设计出一种基于谱哈希的大规模中文网页分类算法,并将所设计算法进行了实现与测试。本文研究的主要内容如下:第一,提出基于关键词匹配的方法对网页进行预分类处理。通过对网页结构特点的研究发现,网页类别属性与标签项中的文本信息密切相关,对网页预处理分词后,提取标签中的词集合,与预分类关键词表进行匹配,若匹配成功后则直接输出分类结果。该方法不需要特征选择、网页向量化表示、分类算法等步骤,只是字符串的匹配,因此可以大幅提高分类效率。第二,提出综合权重计算方法,并将其应用于选择选择过程中,提出了CW-FS特征选择法。该方法将特征项在类内及类间的分布情况、特征项在网页中的位置、特征词长度均纳入权重考虑范围,从而选择出包含信息量大、区别能力强的特征项。。第三,网页向量维度过高是影响网页分类效率的主要原因,本文提出将原始网页向量经谱哈希降维,以达到减小分类运算开销,提高网页分类效率的目的。通过实验验证,该方法可以在较小正确率损失的条件下,大幅提高网页分类算法的效率。最后综合以上优化方案,设计并实现了基于谱哈希的大规模中文网页分类算法,经过与KNN算法的对比实验,证明本文所提出的分类算法能够在较小分类准确率损失的条件下,大幅减小分类运算的时间开销和内存开销,分类效率提高明显。

周军[4](2013)在《中文网页自动分类系统及关键技术研究与实现》文中研究指明随着互联网的快速发展,网页数量也呈爆炸式的增长。有效组织并管理这些海量网页的方法之一就是利用网页自动分类技术对其进行分类。由于目前网页内容纷繁复杂,而且网页文本长度长短不一,将传统的基于机器学习的分类方法应该用到大规模网页分类中时,往往准确率偏低,这使得这些在传统分类中表现出色的方法难以有效解决大规模网页分类问题。因此,如何针对目前互联网类别体系复杂、网页数量巨大的特点研究一种高效的网页自动分类技术是一个亟待解决的问题。本文针对这一类问题的解决做了相关的研究,主要研究了目前分类所用到的常用方法,指出了其存在的不足,并提出了相应的解决方案,最后通过实验证明了这些方法的有效性。完成的主要工作和取得的研究成果如下:1、对目前的网页分类相关理论进行了研究,包括网页的分类过程、网页表示模型、中文分词技术、特征抽取方法及网页分类算法等。2、研究了目前常用的分类算法,针对目前自动获取的网页内容文本短小的问题,提出了一种基于LabeledLDA模型的特征词空间扩充方法,通过实验证明了其可行性。3、针对新闻类别等网页内容杂乱,分类准确率较低的现象,提出了一种基于URL结构及标题的预分类算法,并辅助以实验证明,有效的解决了这一问题。4、将上述提出的单个改进方案综合起来,确立了一种新的分类框架,并基于此最终实现了一个网页分类系统,通过实验分析,相对于传统的分类方法,本文提出的方案可以使分类的准确率提高0.5%-1%。最后总结了取得的成果和尚存在的问题并提出了进一步改进的方向。

汪雷[5](2013)在《基于文本挖掘的网页分类系统研究与实现》文中认为随着信息技术的不断发展,网页的数量也在成倍的增加,如何通过网页自动分类技术有效的组织和管理这些海量数据已经成为Web领域的一个研究热点。分类算法是实现网页自动分类的一个重要环节,它的优劣直接决定了分类系统的分类效率和分类精度。文本分类由文本预处理、特征空间的建立、分类器的生成以及分类结果的评估这四个部分构成。本文在网页自动分类相关技术的理论研究基础上,根据网页内容实现了网页分类,其中包括使用正则表达式完成网页清洗、对网页的正文分词、对照停用词表去停用词、通过基于文档频率的特征选择算法建立特征空间、使用向量空间模型表示网页、使用分类器分类和分类结果评估。重点研究并实现了最近邻分类算法和支持向量机算法,通过实验对比上述两种算法的分类性能。实验结果表明,最近邻分类算法的分类结果要优于支持向量机算法的分类结果,但是所花的时间也比支持向量机要长一倍。在对传统分类算法分析的基础上,针对它们各自的不足通过C#实现了相应的改进算法。针对传统的最近邻分类算法在训练样本数据分布不均匀的情况下会出现误判导致分类效果差的不足,本文实现了基于样本密度改进的最近邻分类算法,通过增大训练样本稀疏区的平均文本相似度,降低训练样本密集区的平均文本相似度,达到改善分类效果的目的;针对支持向量机在多类别分类中分类结果不理想的情况,本文实现了基于最近邻和支持向量机融合的分类算法,先对测试样本用最近邻分类算法进行粗判断,得到测试样本的候选类别,然后再使用支持向量机算法从候选类别中选出最佳类别,达到提高分类效果的目的。实验结果表明,基于样本密度改进的最近邻分类算法的分类效果和组合算法的分类效果均要比传统的两种分类算法的分类效果好,且组合算法的分类效果也要优于基于样本密度改进的最近邻分类算法的分类效果。最后本文在网页自动分类相关技术的理论研究和分类算法实验分析的基础上,设计并实现了基于文本挖掘的网页分类系统。系统包括训练和分类两个功能模块。

黄莉,李湘东[6](2012)在《基于《中图法》的自动分类研究现状与展望》文中提出将人工智能研究领域中的文本自动分类技术应用于信息资源管理领域是当前的研究重点之一,而目前信息资源管理领域具有体系结构严格、类目数量巨大、类目层次众多等特点。本文充分考虑这些特点,针对《中国图书馆图书分类法》分类体系下文本自动分类研究的现状,从研究目的、类目体系、资源类型等方面,参考国外相关研究的成果和方法予以分析和评价;结合国外相关研究的最新成果,提出我国在《中国图书馆图书分类法》分类体系下应用文本自动分类技术时应注意的问题及今后的研究方向。

叶西切忠[7](2012)在《基于web的藏文文本自动分类研究与实现》文中研究表明随着互联网的普及和藏文信息技术的发展,藏文网站的数量越来越多,藏文信息资源从匮乏的时代过渡到极为丰富的藏文数字化时代。但面对海量的藏文信息资源,人们又很难得到实际需要的信息。因此,人们常对藏文网页按照其内容进行分类。目前,用传统的分类方法来处理是不切实际的,必须借助计算机对藏文网页进行自动分类,一来减少了人力的耗费和财力的投资,二来提高了网页分类的效率和准确率。因此,用计算机进行藏文网页文本的自动分类,可以满足人们所期望对各类藏文文本分类应用需求,这也成为迫在眉睫的研究课题。笔者认为对藏文网页文本自动分类的研究在藏文搜索引擎、藏文数字图书馆和藏文出版等领域,以及对推动藏文信息技术的发展与应用有着重要的现实意义和使用价值。本文主要对藏文网页的净化、藏文分词、特征选取、权值计算、分类算法等相关技术进行了较深入的分析和研究,其中重点研究了藏文分词和藏文网页分类算法,并借鉴现有的中英文分类算法,提出了符合藏文文法及藏文字结构特征的分类算法,即词频统计+词匹配法、基于标题的藏文网页分类算法和基于导航栏的藏文网页分类算法的一种新的混合分类算法,该方法大大提高了基于web的藏文文本自动分类系统的查全率和查准率。最后实现了基于web的藏文文本自动分类系统,同时对实验结果进行了分析并具有良好的分类结果。

盛魁[8](2011)在《基于SVM的中文网页自动分类技术研究》文中指出随着互联网迅速普及和发展,网络信息资源呈爆炸式增长,用户从中选择自己感兴趣的信息,给用户带来了方便,然而网络给人们提供足够丰富信息的同时,也带来了新的问题。面对繁杂的网页内容,很难找到所需的信息,如何方便快捷地找到这些网页信息,并有效管理和组织供用户进行选择是当前信息分类面临的一大挑战。“信息过载”是影响信息收集效率的一个主要原因,网上众多不相关的信息默认为是相关的,则非常容易发生“信息过载”的现象,虽然使用“信息过滤”和“信息检索”等方法可以解决这个问题。然而,大部分“信息过滤”和“信息检索”的方法不能够明确的说明用户需求。面对网上的海量信息,传统的处理方式先是人工对网上信息进行分类,然后再组织和整理分类结果。这种人工分类的做法不仅耗费大量的人力、物力和财力,而且存在分类结果一致性不高的问题。因此,对网页自动分类技术进行研究,使网页能够自动进行分类,为用户提供方便快捷的信息,具有重要的现实意义。本文结合中文网页文本分类的研究背景,研究意义以及简要介绍SVM算法的国内外学者对其研究的现状,并针对SVM多类别分类方法进行改进和实验验证。具体工作如下:首先,本文简要介绍Web挖掘的流程和应用,研究分析中文网页分类的总体过程,包括:中·文网页预处理、特征选取技术、网页分类算法和网页分类效果的评价指标。重点研究分析特征选取技术,网页分类效果的评价指标。其次,分析研究统计学习理论的理论基础和SVM算法的基本原理,对SVM的多种多类别分类算法进行介绍。本文的理论创新是针对支持向量机多分类算法实际存在不足,进行了改进,提出一种新的多类分类SVM网页分类方法。最后,在改进多分类算法的基础上,进行仿真实验,将收集到的中文网页样本用于未改进算法和改进算法进行训练和测试,实验结果表明改进后的多分类SVM算法效果优于未改进的算法;此外,对不同特征表示对分类结果的影响,进行了验证分析,得出TF-IDF方法性能优于词频权重方法;最后对如何选择合适的特征表示分析方法、提高分类的准确率提出了一些研究思路。

黄美宁[9](2011)在《基于用户行为分析的网页分类系统的研究与实现》文中进行了进一步梳理近年来,随着因特网飞速发展,网络上以网页为载体的各种文本信息大量涌现,网上信息量呈爆炸性增长。人们要找到自己所需要的信息犹如大海捞针,被动模式的搜索引擎已经不能满足用户的需求。如何以主动模式满足用户个性化的服务要求,成为新的网络服务系统面临的挑战性课题之一。本文基于用户行为分析和个性化服务的前提,针对网页分类技术中的关键技术进行研究和改进,最终实现了一个适应于网页分类的文本分类系统。本文主要研究的关键技术包括:第一,中文分词技术。本文对原有的分词方法进行研究,并提出了一种适合于网页文本特点的基于统计与最大匹配结合的分词算法,该方法能识别出网页中的新生词汇,且合并频繁出现的单字组合。改进的方法既避免了漏掉对分类有很大贡献的新生词汇,也通过合并单字减小了特征空间维数,降低了计算复杂度。第二,特征抽取和赋权技术。本文通过研究和考察特征选择算法和赋权算法,对普遍认为效果较好的CHI统计方法进行了适合于网页分类的改进,提出了基于网页结构的CHI统计特征选择算法和TD-IDF-CHI赋权算法。实验结果表明,这两种预处理算法在一定程度上提高了分类精度。本文基于以上改进的算法实现了一个网页分类模块,同时也设计并实现了一个完整的用户行为分析系统,该系统主要包括三大模块:数据采集过滤模块、网页分类模块和结果统计模块。三大模块所完成的功能如下:第一,数据采集过滤模块。Web行为的用户属性信息存在于HTTP包的头部,要获得用户的信息就需要对HTTP包进行解析和信息提取。数据采集过滤模块中介绍了本文所设计实现的HTTP包解析的流程。第二,网页分类模块是本文主要的研究对象。该模块基于改进的分词算法、预处理算法和分类效果较好的KNN和SVM分类算法,实现了将网页映射到特定类别的过程。第三,结果统计模块。该模块总结并更新用户访问的网页的分类结果,并与个性化服务系统直接相连,将用户行为分析的结果直接应用于个性化广告反馈等服务中去。本文所研究并实现的基于用户行为分析的网页分类系统适用于网页在线分类和离线分类两种模式,实验结果表明,改进的预处理算法对分类准确度有很好的矫正,结果统计模块的设计也获得了较好的结果,充分反映了用户当前的兴趣,为个性化服务系统的研究提供了参考模型。

孔令成[10](2010)在《基于特征提取和权值计算算法的中文网页分类研究》文中进行了进一步梳理在现代社会,互联网急剧地改变着我们的生活,面对互联网上巨量的信息,如何得到我们真正想要的信息变成了一个非常重要的问题,网页分类便成为了一个热点研究领域。网页分类就是根据一定的规则实现大量的网页的自动归类,进而对网页进行有序组织,改善信息检索的性能,提高网络资源的利用率。特征提取和加权是网页分类过程中的重要步骤,也是提高网页分类效率的前提,算法的优劣直接影响到分类器的性能。本文的工作是在“中文网页分类系统”的开发过程中,对网页分类技术进行了较为深入的研究,包括中文网页信息提取、自动分词、特征提取、权值计算、自动网页分类等方面,并基于传统的特征提取和权值计算算法提出自己的改进算法。本文的主要工作如下:首先,介绍了网页分类的国内外现状和研究方法,并指出课题研究的重点和难点。其次,我们较为深入地研究了传统的MI算法和tf-idf公式在网页分类中的应用及其存在的不足,发现传统的MI算法忽视了互信息值为负的特征以及过分倾向于低频词,另外传统的tf-idf公式忽视了特征项在类别之间的分布,并针对这些不足对传统的算法提出改进,再通过实验证明改进的优越性和可行性。最后,本文利用有监督的机器学习理论构建一个网页分类器。运用改进型的互信息算法对分词结果进行特征提取,对传统的tf-idf加权公式进行了一些改进,运用KNN算法构建分类器。进行了大量的实验,实验结果表明改进后的算法相对传统算法具有优越性,实现了较高的精确度。伴随着互联网上信息的飞速增长,网络数据挖掘越来越变成一个重要的学术研究领域,中文网页分类作为网络数据挖掘领域的重要分支,具有重大的研究价值和现实意义。

二、中文网页自动分类研究(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、中文网页自动分类研究(论文提纲范文)

(1)面向新闻网页的主题识别及自动分类系统的设计与实现(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 课题来源
    1.2 课题的研究背景和意义
    1.3 国内外研究现状
        1.3.1 文本分类技术研究现状
        1.3.2 网页特性研究现状
        1.3.3 网页分类模型研究现状
        1.3.4 目前存在的主要问题
    1.4 研究内容及论文组织结构
        1.4.1 论文研究内容
        1.4.2 论文写作结构
第2章 新闻网页分类系统的需求分析
    2.1 系统功能性需求分析
        2.1.1 角色分析
        2.1.2 系统使用者需求分析
        2.1.3 系统管理者需求分析
    2.2 系统的非功能性需求分析
    2.3 新闻网页分类系统任务概述
    2.4 新闻网页分类系统的业务过程分析
    2.5 本章小结
第3章 新闻网页分类特征分析
    3.1 新闻网页分类问题
    3.2 新闻网页内容特征选择
        3.2.1 中文分词
        3.2.2 特征选择
    3.3 基于LDA模型的主题识别
    3.4 基于改进词嵌入的特征向量构建
        3.4.1 词嵌入
        3.4.2 改进的特征向量表示
    3.5 实验与分析
    3.6 本章小结
第4章 新闻网页分类模型
    4.1 新闻网页分类模型技术分析
        4.1.1 分类模型技术分析
        4.1.2 分类模型技术对比
    4.2 基于网页联合特征的分类模型设计
        4.2.1 输入层设计
        4.2.2 卷积层设计
        4.2.3 池化层设计
        4.2.4 全连接层设计
    4.3 基于改进word2vec的关键词提取算法
        4.3.1 余弦相似度计算
        4.3.2 改进的W_Textrank算法
    4.4 实验与分析
        4.4.1 分类模型实验对比分析
        4.4.2 关键词对比实验分析
    4.5 本章小结
第5章 新闻网页分类系统的设计与实现
    5.1 系统总体设计
        5.1.1 系统功能结构设计
        5.1.2 系统架构设计
        5.1.3 系统逻辑功能设计
        5.1.4 系统环境部署
    5.2 新闻网页分类系统功能模块设计
        5.2.1 数据获取子系统的设计
        5.2.2 新闻网页分类特征分析子系统的设计
        5.2.3 分类模型构建子系统的设计
    5.3 系统数据库设计
    5.4 新闻网页分类系统实现
        5.4.1 数据获取子系统的实现
        5.4.2 网页特征分析子系统的实现
        5.4.3 分类模型构建子系统的实现
    5.5 系统测试
        5.5.1 测试目标与环境
        5.5.2 系统功能与性能测试
    5.6 新闻网页分类系统的应用
    5.7 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其他成果
致谢

(2)多示例多标签网页分类关键技术研究(论文提纲范文)

摘要
abstract
第一章 前言
    1.1 课题背景与意义
    1.2 国内外研究现状
        1.2.1 SVM及半监督SVM研究现状
        1.2.2 多示例多标签框架研究现状
    1.3 论文研究内容
    1.4 论文组织结构
第二章 相关技术介绍
    2.1 网页分类综述
        2.1.1 网页分类流程概述
        2.1.2 网页分类关键技术
        2.1.3 网页分类常用算法
    2.2 支持向量机
        2.2.1 SVM基本原理
        2.2.2 SVM核函数
        2.2.3 半监督支持向量机
    2.3 多示例多标签框架
        2.3.1 多示例学习
        2.3.2 多标签学习
        2.3.3 多示例多标签学习
    2.4 本章小结
第三章 基于分类器链的多示例多标签算法
    3.1 OCC简介
    3.2 MIMLSVM+算法
    3.3 基于分类器链的OCC-MIMLSVM+算法
    3.4 实验与讨论
        3.4.1 实验设计
        3.4.2 评价指标
        3.4.3 实验结果分析
    3.5 本章小节
第四章 基于半监督学习的多示例多标签算法
    4.1 S4VM算法
        4.1.1 生成候选低密度分类器
        4.1.2 快速采样的方法
        4.1.3 构建S4VM
    4.2 基于半监督学习的S4VM-MIMLSVM+算法
    4.3 实验与讨论
        4.3.1 实验设置
        4.3.2 实验结果
    4.4 本章小结
第五章 中文网页分类系统
    5.1 实验环境
    5.2 实验设计
        5.2.1 预处理模块
        5.2.2 模型训练模块
        5.2.3 分类模块
    5.3 系统运行结果分析
        5.3.1 运行过程
        5.3.2 运行结果分析
    5.4 本章小结
结论
    主要工作
    主要创新点
    存在的问题及未来的方向
参考文献
攻读硕士学位期间取得的学术成果
致谢

(3)基于谱哈希的大规模网页分类算法研究与实现(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 研究现状
        1.2.1 基于网页内容分类的研究现状
        1.2.2 基于网页特征分类的研究现状
    1.3 本文主要工作
    1.4 本文的组织结构
第二章 相关研究
    2.1 网页自动分类概述
        2.1.1 网页分类的定义
        2.1.2 中文网页分类的特点
        2.1.3 中文网页分类的过程
    2.2 网页预处理
        2.2.1 网页去噪
        2.2.2 中文自动分词
        2.2.2.1 字符串匹配分词法
        2.2.2.2 词频统计分词法
        2.2.2.3 基于理解的分词法
    2.3 特征选择
        2.3.1 文档频率DF (Document Frequency)
        2.3.2 互信息MI(Mutual Information)
        2.3.3 卡方检查CHI(CHI-square statistic)
    2.4 文本表示模型
        2.4.1 布尔模型(Boolean Model)
        2.4.2 向量空间模型VSM(Vector Space Model)
    2.5 特征权重计算
        2.5.1 布尔权重
        2.5.2 词频权重
        2.5.3 TF-IDF权重
    2.6 分类算法
        2.6.1 类中心法(Category Centroid)
        2.6.2 KNN算法
        2.6.3 支持向量机算法
    2.7 本章小结
第三章 大规模网页分类算法设计
    3.1 当前网页分类过程存在问题分析
        3.1.1 分类算法存在问题分析
        3.1.2 常用降维方法存在问题分析
        3.1.3 特征权重计算方法存在问题分析
    3.2 网页分类算法优化方案
        3.2.1 综合权重(Comprehensive Weight,CW)评估方法
        3.2.1.1 长度参数LenWeight
        3.2.1.2 位置参数PosWeight
        3.2.1.3 类间分布参数DA
        3.2.1.4 类内部分布参数DW
        3.2.2 综合权重特征选择( Comprehensive Weight-Feature Selection,CW-FS)方法
        3.2.3 谱哈希降维法(Spectral hash--Feature reduction,SH-FR)
        3.2.4 网页预分类方法
        3.2.4.1 预分类的思想
        3.2.4.2 预分类的关键词表
        3.2.4.3 预分类方法的分类步骤
    3.3 基于谱哈希的大规模中文网页分类算法设计
    3.4 本章小结
第四章 基于谱哈希的大规模网页分类算法实现
    4.1 基于谱哈希的大规模中文网页分类算法流程
    4.2 网页预处理的实现
        4.2.1 网页文本信息抽取的实现
        4.2.2 文本信息分词的实现
    4.3 网页预分类的实现
    4.4 CW-FS特征选择方法的实现
    4.5 网页向量化表示的实现
    4.6 基于谱哈希网页向量降维方法的实现
    4.7 KNN分类器的实现
    4.8 本章小结
第五章 基于谱哈希的大规模网页分类算法测试
    5.1 数据集
    5.2 测试标准
    5.3 优化方案测试
        5.3.1 预分类方法测试
        5.3.2 CW-FS特征选择测试
        5.3.3 网页向量化表示测试
        5.3.4 经谱哈希降维后方法测试
    5.4 基于谱哈希的大规模中文网页分类算法测试
        5.4.1 测试不同K值对分类器的影响
        5.4.2 测试不同训练集规模对KNN分类算法的影响
        5.4.3 两种算法对比测试结果
    5.5 测试分析
第六章 总结与展望
    6.1 主要工作总结
    6.2 下一步工作展望
致谢
参考文献
作者在学期间取得的学术成果

(4)中文网页自动分类系统及关键技术研究与实现(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2
        1.2.1 国外的研究现状
        1.2.2 国内的研究现状
    1.3 主要研究内容
    1.4 论文组织结构
第二章 网页分类相关理论研究
    2.1 网页分类问题描述
        2.1.1 网页分类的定义
        2.1.2 网页分类一般过程
    2.2 中文分词技术
        2.2.1 基于子串的分词
        2.2.2 基于统计的分词
    2.3 特征抽取方法
        2.3.1 常用特征选取方法
        2.3.2 目前特征选取方法存在的问题
        2.3.3 特征选择方法的改进
    2.4 特征权重计算
        2.4.1 TF-IDF
        2.4.2 TF-IDF的不足
    2.5 网页表示模型
    2.6 常用分类算法介绍
        2.6.1 K最邻近结点方法
        2.6.2 朴素贝叶斯方法
        2.6.3 支持向量机方法
    2.7 本章小结
第三章 系统关键算法设计与验证
    3.1 短文本分类算法
        3.1.1 短文本分类算法背景介绍
        3.1.2 短文本分类算法实现与验证
    3.2 预分类算法
        3.2.1 预分类的理论依据
        3.2.2 网页标题关键词映射表的生成
        3.2.3 URL关键词映射表生成
        3.2.4 预分类算法描述
    3.3 多分类归纳模型
        3.3.1 多分类归纳模型
        3.3.2 多分类融合算法
        3.3.3 多分类归纳模型实验分析
    3.4 本章小结
第四章 网页自动分类系统设计与实现
    4.1 网页自动分类系统设计
        4.1.1 分类体系
        4.1.2 分类系统架构
        4.1.3 系统功能模块设计
    4.2 网页自动分类系统实现
        4.2.1 网页获取模块实现
        4.2.2 网页解析模块实现
        4.2.3 网页分类模块架构设计及实现
        4.2.4 网页存储模块实现
    4.3 本章小结
第五章 系统性能测试
    5.1 实验的环境
    5.2 实验结果评价方法
        5.2.1 召回率和准确率
        5.2.2 F估计值
        5.2.3 微平均和宏平均
    5.3 实验数据
    5.4 实验及结果分析
        5.4.1 特征项规模选择实验
        5.4.2 特征选择算法实验
        5.4.3 分类算法对比实验
        5.4.4 系统性能分析实验
    5.5 本章小结
第六章 总结与展望
    6.1 工作总结
    6.2 主要创新点
    6.3 下一步工作
致谢
参考文献
作者在学期间取得的学术成果

(5)基于文本挖掘的网页分类系统研究与实现(论文提纲范文)

中文摘要
Abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 论文研究的主要内容
    1.4 本文的组织结构
第2章 基于统计学习的中文网页分类器设计
    2.1 网页自动分类的定义及方法
    2.2 基于统计学习的中文网页分类过程
        2.2.1 网页的预处理
        2.2.2 文本表示模型
        2.2.3 特征选择
        2.2.4 特征权重的计算
        2.2.5 网页分类
        2.2.6 分类结果评估
    2.3 小结
第3章 网页分类算法研究及改进
    3.1 最近邻分类算法
    3.2 基于样本密度改进的KNN算法
    3.3 支持向量机算法
    3.4 最近邻分类与支持向量机分类融合算法
    3.5 网页分类算法性能及对比分析
        3.5.1 基于KNN的网页分类的性能分析
        3.5.2 基于样本密度改进KNN的网页分类的性能分析
        3.5.3 基于支持向量机的网页分类的性能分析
        3.5.4 最近邻分类与支持向量机分类融合算法的性能分析
    3.6 小结
第4章 系统的设计与实现
    4.1 系统的总体设计
    4.2 系统的具体实现
    4.3 运行结果界面
    4.4 小结
第5章 总结与展望
    5.1 全文总结
    5.2 研究展望
致谢
参考文献

(6)基于《中图法》的自动分类研究现状与展望(论文提纲范文)

1 引言
2 《中图法》分类体系下文本自动分类研究综述
    2.1 研究目的
    2.2 自动分类的方法
    2.3 试验材料的制作方式
    2.4 试验材料的类目构造或分类体系
    2.5 试验材料的来源及类型
    2.6 评价
        2.6.1 评价指标
        2.6.2 评价方法
        2.6.3 评价结果
3 《中图法》分类体系下文本自动分类研究展望

(7)基于web的藏文文本自动分类研究与实现(论文提纲范文)

摘要
外文摘要
Abstract
第1章 绪论
    1.1 本文研究的背景及意义
        1.1.1 本文研究的背景
        1.1.2 本文研究的意义
    1.2 国内外的研究现状
        1.2.1 国外的研究现状
        1.2.2 国内研究现状
    1.3 网页分类的相关技术
        1.3.1 自动分类的基本概念
        1.3.2 降维技术
        1.3.3 特征项权重计算方法
        1.3.4 分类方法
    1.4 本文研究的内容
    1.5 本文组织机构
第2章 基于 WEB 的藏文网页自动分类的预处理
    2.1 引言
    2.2 藏文网页的爬取
        2.2.1 藏文网页结构分析
        2.2.2 爬虫的实现
    2.3 藏文网页的净化
        2.3.1 网页噪音
        2.3.2 提取正文文本信息及存储
    2.4 藏文分词研究
        2.4.1 分词算法
        2.4.2 停用词的处理
        2.4.3 藏文停用词
    2.5 本章小结
第3章 藏文网页自动分类的特征提取与分类算法研究
    3.1 引言
    3.2 特征项对藏文网页分类的作用
    3.3 特征项选取及权重计算
        3.3.1 特征选取
        3.3.2 特征项权重计算
    3.4 藏文网页自动分类算法
    3.5 本章小结
第4章 基于 WEB 的藏文网页自动分类系统设计和实现
    4.1 引言
    4.2 基于 web 的藏文网页自动分类系统的总体设计
    4.3 藏文网页自动分类系统的实现
    4.4 本章小结
第5章 试验与结果分析
    5.1 实验语料
    5.2 藏文分词实验
        5.2.1 实验方案
        5.2.2 实验结果
        5.2.3 实验结果分析
    5.3 文本特征描述实验
        5.3.1 实验方案
        5.3.2 实验结果
        5.3.3 实验结果分析
    5.4 分类器分类实验
        5.4.1 实验方案
        5.4.2 实验结果
        5.4.3 实验结果分析
第6章 总结与展望
    6.1 总结
    6.2 展望
参考文献
攻读硕士学位期间发表的学术论文目录
致谢

(8)基于SVM的中文网页自动分类技术研究(论文提纲范文)

摘要
Abstract
目录
第一章 绪论
    1.1 课题的研究背景和意义
    1.2 课题的国内外研究现状
        1.2.1 自动分类技术发展情况
        1.2.2 基于网页分类技术的研究现状
    1.3 统计学习理论与支持向量机
    1.4 论文的主要内容和结构安排
    1.5 本章小结
第二章 Web挖掘研究概述
    2.1 Web挖掘概述
        2.1.1 Web挖掘的概念
        2.1.2 Web挖掘的流程
    2.2 Web挖掘的分类
    2.3 Web挖掘的复杂度
    2.4 Web挖掘的应用
    2.5 Web数据挖掘的特性及面临的问题
    2.6 本章小结
第三章 中文网页自动分类的关键技术
    3.1 文本自动分类
    3.2 中文网页自动分类过程
    3.3 中文网页预处理
    3.4 特征提取技术
    3.5 特征项的权重计算
    3.6 网页文本分类算法
    3.7 网页分类效果的评价指标
    3.8 中文网页分类技术的难点及突出问题
    3.9 中文网页分类研究热点
    3.10 本章小结
第四章 支持向量机技术
    4.1 机器学习问题
        4.1.1 机器学习
        4.1.2 经验风险最小化原则
    4.2 VC维和结构风险最小化
        4.2.1 VC维
        4.2.2 结构风险最小化原则
    4.3 最优分类面
    4.4 核函数的构造
    4.5 多类SVM分类算法
        4.5.1 "1-1"方法
        4.5.2 "1-N"方法
        4.5.3 决策有向无环图方法
        4.5.4 二叉树方法
    4.6 支持向量机的应用
    4.7 需要解决的问题
    4.8 本章小结
第五章 基于支持向量机的网页分类研究
    5.1 支持向量机分类方法的改进
    5.2 特征提取模块
    5.3 实验结果与分析
        5.3.1 改进算法的实验结果
        5.3.2 特征表示对分类结果的影响
    5.4 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
附录A 图索引
附录B 表索引
致谢
攻读硕士学位期间发表的学术论文

(9)基于用户行为分析的网页分类系统的研究与实现(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 文本分类研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 网页分类系统研究的关键问题
    1.4 论文主要研究内容
    1.5 论文的组织安排
第二章 相关技术概述
    2.1 用户行为分析
        2.1.1 用户行为分析的应用
        2.1.2 用户行为分析的特点
        2.1.3 用户的HTTP行为的研究意义
    2.2 数据挖掘技术
        2.2.1 数据挖掘
        2.2.2 Web挖掘
    2.3 网页自动分类技术
        2.3.1 网页自动分类简介
        2.3.2 网页自动分类的一般过程
        2.3.3 网页自动分类的关键技术
第三章 网页分类系统的关键技术
    3.1 文本表示模型
    3.2 中文分词算法
    3.3 特征选择算法研究
    3.4 特征赋权方法
    3.5 分类算法
        3.5.1 KNN最近邻分类算法
        3.5.2 SVM支持向量机算法
    3.6 性能评估方法
第四章 网页分类系统中的关键技术改进
    4.1 改进的中文分词算法
        4.1.1 最大匹配与统计结合的分词算法
        4.1.2 改进的分词算法验证
    4.2 改进的特征选择算法和赋权算法
        4.2.1 改进的CHI统计算法
        4.2.2 改进的基于网页结构的TD-IDF-CHI赋权算法
        4.2.3 实验环境和算法验证
第五章 网页分类系统的详细设计
    5.1 系统设计的目的和意义
    5.2 系统逻辑模型总体设计
        5.2.1 系统各模块功能描述
        5.2.2 系统内部接口定义
    5.3 数据采集模块
    5.4 网页分类模块
        5.4.1 中文分词过程
        5.4.2 特征选择和赋权过程
        5.4.3 分类过程
    5.5 结果统计模块
    5.6 系统性能测试实验
    5.7 本章小结
第六章 结束语
    6.1 论文工作总结
    6.2 进一步的研究工作
参考文献
致谢
攻读学位期间发表或已录用的学术论文

(10)基于特征提取和权值计算算法的中文网页分类研究(论文提纲范文)

摘要
Abstract
目录
第一章 前言
    1.1 课题的研究背景和意义
    1.2 课题的国内外研究现状
    1.3 课题研究的重点和难点
    1.4 论文的主要内容和结构安排
    1.5 本章小结
第二章 中文网页自动分类技术
    2.1 文本自动分类
    2.2 中文网页自动分类过程
    2.3 中文网页分类领域的研究热点
    2.4 本章小结
第三章 特征提取、权值计算及分类
    3.1 特征提取
    3.2 权值计算
    3.3 分类
    3.4 本章小结
第四章 实验
    4.1 实验系统简介
    4.2 实验流程
    4.3 实验的各种准备
    4.4 实验步骤
    4.5 实验结果及分析
第五章 总结和展望
    5.1 总结
    5.2 展望
参考文献
附录A 索引图
APPendix A. Figure Index
附录B 表格
Appenidx B. Table Index
致谢
攻读硕士学位期间发表的学术论文,目录

四、中文网页自动分类研究(论文参考文献)

  • [1]面向新闻网页的主题识别及自动分类系统的设计与实现[D]. 李华欣. 哈尔滨工业大学, 2019(12)
  • [2]多示例多标签网页分类关键技术研究[D]. 田程程. 中国石油大学(华东), 2018(07)
  • [3]基于谱哈希的大规模网页分类算法研究与实现[D]. 田郸郸. 国防科学技术大学, 2016(04)
  • [4]中文网页自动分类系统及关键技术研究与实现[D]. 周军. 国防科学技术大学, 2013(03)
  • [5]基于文本挖掘的网页分类系统研究与实现[D]. 汪雷. 武汉理工大学, 2013(S2)
  • [6]基于《中图法》的自动分类研究现状与展望[J]. 黄莉,李湘东. 图书情报知识, 2012(04)
  • [7]基于web的藏文文本自动分类研究与实现[D]. 叶西切忠. 青海民族大学, 2012(02)
  • [8]基于SVM的中文网页自动分类技术研究[D]. 盛魁. 安徽大学, 2011(04)
  • [9]基于用户行为分析的网页分类系统的研究与实现[D]. 黄美宁. 北京邮电大学, 2011(09)
  • [10]基于特征提取和权值计算算法的中文网页分类研究[D]. 孔令成. 安徽大学, 2010(12)

标签:;  ;  ;  ;  ;  

中文网页自动分类研究
下载Doc文档

猜你喜欢