一、 填空(部分): 1.网页预处理可以采取______和______ 2.统计语言模型是_________,应用有__________ 3.爬虫的BFS比DFS好是因为__________ 4.CBIR技术的核心是_______和________ 5.web爬虫可以用_______判重
二、名词解释 1.web数据抽取 2.HMM 3.web spam 4.布尔检索模型 5.HOG
三、简答: 1.简述反爬虫与爬虫的博弈 2. web爬虫爬取的数据有哪些存储格式?选取的原则? 3.比较bs4和scrapy 3.向量空间模型特点 4.CBIR如何将局部特征转为全局特征
都是老师最后一节课划得考点,没有超纲的内容。填空只要大概能记住整个知识体系就没问题,没有很偏的问题,注意一些概念的定义非常可能出填空题。
by naggy