网络大数据采集与整理课程学习中遇到的主要问题及解决

tech2023-11-20  78

1、HTML基础学习时,感觉很懵,无从下手,打开W3school网站IT教程网站学习看不太明白,最后百度了好多资料才渐渐清晰。 2、Xpath、CSS学习时,同样是W3school网站,老师布置了一个用Xpath和CSS定位网站内容,由于不知道怎么验证,写了好多种的定位方式提交,最后老师教我们用浏览器检验定位方式正确性,验证完后发现只有小部分正确。于是发现好多定位方式不适用,最好用的是css与xpath里的ID定位和属性定位。 3、Request库和Beautifulsoup库学习时,使用Request和Beautifulsoup写一个爬取学校新闻中2020年的所有新闻,但是我写的无限循环的爬取2020中的新闻链接就出现了问题,百度无果,问同学无果,问老师只是知道了位置,还是没有解决,最后我发现是我用request爬取时模仿的 selenium webdriver来写的,但是request与bs4不是模拟浏览器的行为实现爬取任务的,最终另辟蹊径找到了新闻链接中的规律与特点,按页爬取了14页,第14页有2019的新闻,用if date.find(‘2020’)==0的语句进行筛选,最终得到结果。 4、京东商城爬取商品评价时,模仿的 selenium webdriver写的爬虫,xpath定位时总是出错,最终尝试ID定位正确。还出现数据处理不合适问题。最后结合百度解决数据处理问题。 5、学习scarpy框架结合selenium爬取股票信息时,网站结构的观察不仔细、对scarpy框架的不理解,多次试错,然后还是错了,最终百度得知scarpy项目中有一处的中文字符出现错误,改正,最终成功。 6、对大数据职业信息分析过程中借鉴了前面对京东商城评论爬取、相似案例的爬取与处理方式。在表单登录时,根据页面有一个点击登录按钮弹出登录窗口进行模拟输入登录的动作,当弹窗出现后就无法进行下一步,尝试百度,发现应该有一个frame窗口需要转换的动作,但是对这方面的知识知之甚少,自学后仍然显示窗口转换还是不对,所以选择改变初始网址,直接进入到弹窗后界面,再次运行成功。 7、同一个任务中进行数据处理的中文分词时,出现添加自定义词时失败问题:最终选择直接将新词写入自定义字典(文件),以jieba的本地字典的方式传入结巴,成功分词。(jieba.load_userdict(“newdict.txt”))

最新回复(0)