我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:热购彩票 > 范例检索 >

读书笔记范例

归档日期:04-24       文本归类:范例检索      文章编辑:爱尚语录

  读书笔记范例_调查/报告_表格/模板_实用文档。读书笔记 姓名:xiaoming 学号:130601 班级:15 级电子商务 1541 班 前言:我通过查阅图书馆书籍,搜索图书馆数据库资料,查阅有关期刊和查找网页上相关的资料四种方 式,为我

  读书笔记 姓名:xiaoming 学号:130601 班级:15 级电子商务 1541 班 前言:我通过查阅图书馆书籍,搜索图书馆数据库资料,查阅有关期刊和查找网页上相关的资料四种方 式,为我的论文——《基于分布式系统的网络爬虫设计与研究》寻找相关的信息资料,并从 2016 年 4 月 1 日——2016 年 4 月 24 日根据所收集的资料完成的读书笔记,以下即为我此次的读书笔记。 《主题网络爬虫的研究与设计》之读书笔记 索引:南京理工大学, 控制理论与控制工程, 2008, 硕士: 《主题网络爬虫的研究与设计》 原文的摘要:随着网络资源的急剧增长,在庞大的网络上,快、准、全地找到相关信息,变得越来越困难。 此时,搜索引擎应运而生。搜索引擎是人们从网上查找信息最方便快捷的方式,也因此超过 E-mail 等常见 web 服务,成为用户使用量最多的服务。 通用搜素引擎,面向所有的 web 信息检索者,由于庞大的网络信息 规模和高速响应要求,使其检索结果的相关性不尽人意。主题搜索引擎,是为进一步提高相关性而发展起 来的新一代搜索引擎。本文的研究对象是主题搜索引擎中的主题爬虫。首先概述了搜索引擎的发展概况 和网络爬虫研究现状;然后分析了集中式主题网络爬虫的体系结构,将其分成 5 个组成部分:数据存储、下 载模块、网页预处理、网页分类和链接分析,并阐述了各部分的功能。本文的具体工作如下:(1)在搜索策 略中,结合内容分析和链接分析,利用 URL 字符串、锚文本、父页面和兄弟页面等启发信息,设计出一种 链接评分方法。(2)网页预处理过程,包括分词、HTML 解释和网页消噪。在对树节点进行裁剪的基础上, 设计了基于样式的网页消噪方法,进一步提高网页消噪效果。(3)网页分类包括两个阶段:特征提取和权值 计算阶段。在特征提取阶段,通过组合文档频率、改进后的 CHI 特征和互信息,得到新的特征,达到降维和 提高分类精度的效果。在权值计算阶段,结合信息增益、传统 TFIDF 和重要信息标签的权值,得到了更适 应网页分类的权值计算方法。(4)最后,在 VC6.0 和 SQL SERVER2000 平台上,实现了一个简易的爬虫系 统,并简要分析了爬虫的运行结果,达到了令人满意的效果。 原文的关键字:搜索引擎; 网络爬虫; 主题爬虫; 网页消噪; 特征提取; 作者的观点:为了获得较高的网页覆盖率,通用爬虫通常按照广度或深度优先原则遍历 web 有向图,在爬 行过程中不太在意采集顺序和网页主题,对网页的内容缺乏细致的分析,过多的无关或无意义的页面被采 集,严重浪费了系统资源和网络带宽并降低了爬虫的采集效率。为了满足应用的个性化和提高爬虫效率 的需求,主题爬虫应运而生。相对于通用网络爬虫的搜索策略,主题网络爬虫是通过结合已知的启发信息 而形成的启发式搜索策略。因此主题网络爬虫的研究主要集中在搜索策略的研究上。通常可以利用的启 发信息有网页内容和链接结构,因此也就形成了基于内容的搜索策略和基于链接的搜索策略 本人的观点: 网络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜 索引擎的重要组成部分。它遍历 Web 空间,不断从一个站点移动到另一个站点,自动建立索引,并加入到 网页数据库中。网络爬虫分析某个网页时,利用 HTML 语言的标记结构来获取指向其他网页的 URL 地址, 可以完全不依赖用户干预,实现网络上的自动爬行和搜索。 正是这种行为方式,这些程序才被称为爬虫机 器人。 总结:该篇文章说明的数据爬虫的基本原理,及运用原理,富有借鉴意义。 《主题网络爬虫的研究与实现》之读书笔记 索引:南京理工大学, 控制理论与控制工程, 2008, 硕士: 《主题网络爬虫的研究与设计》 原文的摘要:随着 Web 信息的急速膨胀,各项和 Web 有关的服务也都逐渐增多,Web 信息在很多方面得 到了广泛的应用,人们对于 Web 信息的要求也越来越高,使得专门负责 Web 信息采集的网络爬虫技术面临 了一个巨大的挑战。国内外的一些大公司对这一问题已经有了很成熟的解决方案,并已投入使用,但是这 些大型搜索引擎只能给大众用户提供一种普通的不可制定的搜索服务,它不可能考虑到所有用户的各式 各样的需求,而单机的网络爬虫在很多情况下又难当重任,中型规模的网络爬虫以其灵活的可定制性和单 机网络爬虫无法比拟的信息采集速度和规模,满足了人们日益增长的对 Web 信息的面向用户的需求,针对 这一情况,本文展开了对国内外的网络爬虫技术的研究。网络爬虫研究中最重要的是设计构架和关键技 术的解决。在吸取了他人技术和经验的基础上,本文设计描述了一个分布式网络爬虫的结构设计,其中包 括硬件的构架,和软件的模块划分。硬件部分由一台 PC 机做控制节点,N 台 PC 机作爬行节点,在局域网 中连接。软件部分又分为控制节点软件设计和爬行节点软件设计。然后本文分析了分布式网络爬虫的关 节技术的解决方法,比如分布式的各个结点如何协同工作,任务如何分配,如何保持重要网页的时新性等 等,进而提出了一些实用的算法,解决了这些分布式网络爬虫的关键技术,实现了一个具备健壮性,可扩展 性,可配置性的分布式网络爬虫系统,并就该分布式网络爬虫系统进行了仔细的剖析。最后在该网络爬虫 上作了一些测试,包括了普通爬行测试和该网络爬虫的一个应用,网站爬行的测试。 原文的关键字:网络爬虫; 并行; 搜索引擎; 作者的观点:国内外的一些大公司对大型网络爬虫已经有了很成熟的解决方案,并已投入使用,但是这 些大型搜索引擎只能给大众用户提供一种普通的不可制定的搜索服务, 它不可能考虑到所有用户的各式 各样的需求,而单机的网络爬虫在很多情况下又难当重任,中型规模的网络爬虫以其灵活的可定制性和 单机网络爬虫无法比拟的信息采集速度和规模,满足了人们日益增长的对 Web 信息的面向用户的需 求,因此本文着眼于中等规模,力求实现一个健壮性,可扩展性,效率各方面都很完善的一个高质量的 爬虫。在这个爬虫的基础上可以开展很多研究比如:普通搜索引擎,主题搜索,移动搜索等等。 本人的观点:随着国际互联网的迅速发展,网上的信息越来越多,全球目前的网页超过 20 亿,每天新 增加 730 万网页。要在如此浩瀚的信息海洋里寻找信息,就像“大海捞针”一样困难。搜索引擎正是 为了解决这个问题而出现的技术。搜索引擎是通过互联网搜索信息的重要途径。它要用到信息检索、人 工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和 技术,具有很高的综合性和很强的挑战性。 总结:该篇文章分析设计数据爬虫的构建,具备学习意义。

本文链接:http://withewind.com/fanlijiansuo/72.html