一、问答平台多线程采集聚合
# 采集类型,包括:百度:百度知道、搜狗:搜狗指南、360:360问答、悟空:悟空问答、新浪:新浪爱问 type = str(getConfig("config", "type")) # 采集线程数,根据电脑配置设置,几核的处理器就选择几 threads = getConfig("config", "threads") # 多线程链接队列 if Register(): print('>> 序列号验证通过,开始运行') if type.count('百度')>0: # 根据关键词采集 例如:SEO|网站优化|网站收录多个关键词用竖杠"|"分割 keyword = getConfig("baidu", "keywords") keys = keyword.split('|') # 采集多少页,百度知道最多75页 page = int(getConfig("baidu", "page")) # 开始页码(采集中断后可以直接从断开页码开始采集) start = int(getConfig("baidu", "start")) # 采集类型 1:只采集问答链接 2:采集链接问答内容 typeid = getConfig("baidu", "typeid") # 链接保存路径 linkpath = getConfig("baidu", "linkpath") # 文章保存路径 wenzhangpath =getConfig("baidu", "wenzhangpath") # 百度知道采集链接 if typeid == "1": word_queue = Queue() for keywords in keys: word_queue.put(keywords) for i in range(len(keys)): consumer = threading.Thread(target=Baidusearch, args=(word_queue,)) consumer.daemon = True consumer.start() word_queue.join() # 百度知道采集文章 elif typeid == "2": link_queue=Queue() links = readbdlink() for k in links: link_queue.put(k.strip()) for i in range(int(threads)): consumer = threading.Thread(target=Baidu, args=(link_queue,)) consumer.daemon = True consumer.start() link_queue.join() if type.count('悟空')>0: # 根据关键词采集 例如:SEO|网站优化|网站收录多个关键词用竖杠"|"分割 keyword = getConfig("wukong", "keywords") keys = keyword.split('|') # 采集类型 1:只采集问答链接 2:采集链接问答内容 typeid = getConfig("wukong", "typeid") # 链接保存路径 linkpath = getConfig("wukong", "linkpath") # 文章保存路径 wenzhangpath = getConfig("wukong", "wenzhangpath") # 悟空问答采集链接 if typeid == "1": word_queue = Queue() for keywords in keys: word_queue.put(keywords) for i in range(len(keys)): consumer = threading.Thread(target=Wukongsearch, args=(word_queue,)) consumer.daemon = True consumer.start() word_queue.join() # 悟空问答采集文章 elif typeid == "2": link_queue = Queue() links = readbdlink() for k in links: link_queue.put(k.strip()) for i in range(int(threads)): consumer = threading.Thread(target=Wukong, args=(link_queue,)) consumer.daemon = True consumer.start() link_queue.join() if type.count('搜狗')>0: # 根据关键词采集 例如:SEO|网站优化|网站收录多个关键词用竖杠"|"分割 keyword = getConfig("sougou", "keywords") keys = keyword.split('|') # 采集多少页,搜狗指南最多75页 page = int(getConfig("sougou", "page")) # 开始页码(采集中断后可以直接从断开页码开始采集) start = int(getConfig("sougou", "start")) # 采集类型 1:只采集问答链接 2:采集链接问答内容 typeid = getConfig("sougou", "typeid") # 链接保存路径 linkpath = getConfig("sougou", "linkpath") # 文章保存路径 wenzhangpath = getConfig("sougou", "wenzhangpath") # 搜狗指南采集链接 if typeid == "1": word_queue = Queue() for keywords in keys: word_queue.put(keywords) for i in range(len(keys)): consumer = threading.Thread(target=Sougousearch, args=(word_queue,)) consumer.daemon = True consumer.start() word_queue.join() # 搜狗指南采集文章 elif typeid == "2": link_queue = Queue() links = readbdlink() for k in links: link_queue.put(k.strip()) for i in range(int(threads)): consumer = threading.Thread(target=Sougou, args=(link_queue,)) consumer.daemon = True consumer.start() link_queue.join() if type.count('360') >0: # 根据关键词采集 例如:SEO|网站优化|网站收录多个关键词用竖杠"|"分割 keyword = getConfig("360", "keywords") keys = keyword.split('|') # 采集多少页,360问答最多100页 page = int(getConfig("360", "page")) # 开始页码(采集中断后可以直接从断开页码开始采集) start = int(getConfig("360", "start")) # 采集类型 1:只采集问答链接 2:采集链接问答内容 typeid = getConfig("360", "typeid") # 链接保存路径 linkpath = getConfig("360", "linkpath") # 文章保存路径 wenzhangpath = getConfig("360", "wenzhangpath") # 360问答采集链接 if typeid == "1": word_queue = Queue() for keywords in keys: word_queue.put(keywords) for i in range(len(keys)): consumer = threading.Thread(target=Qihusearch, args=(word_queue,)) consumer.daemon = True consumer.start() word_queue.join() # 百度知道采集文章 elif typeid == "2": link_queue = Queue() links = readbdlink() for k in links: link_queue.put(k.strip()) for i in range(int(threads)): consumer = threading.Thread(target=Qihu, args=(link_queue,)) consumer.daemon = True consumer.start() link_queue.join() if type.count('新浪')>0: # 根据关键词采集 例如:SEO|网站优化|网站收录多个关键词用竖杠"|"分割 keyword = getConfig("xinlang", "keywords") keys = keyword.split('|') # 采集多少页,新浪爱问最多100页 page = int(getConfig("xinlang", "page")) # 开始页码(采集中断后可以直接从断开页码开始采集) start = int(getConfig("xinlang", "start")) # 采集类型 1:只采集问答链接 2:采集链接问答内容 typeid = getConfig("xinlang", "typeid") # 链接保存路径 linkpath = getConfig("xinlang", "linkpath") # 文章保存路径 wenzhangpath = getConfig("xinlang", "wenzhangpath") # 新浪爱问采集链接 if typeid == "1": word_queue = Queue() for keywords in keys: word_queue.put(keywords) for i in range(len(keys)): consumer = threading.Thread(target=Xinlangsearch, args=(word_queue,)) consumer.daemon = True consumer.start() word_queue.join() # 新浪爱问采集文章 elif typeid == "2": link_queue = Queue() links = readbdlink() for k in links: link_queue.put(k.strip()) for i in range(int(threads)): consumer = threading.Thread(target=Xinlang, args=(link_queue,)) consumer.daemon = True consumer.start() link_queue.join()二 、权重站操作技巧文章聚合软件程序介绍 更新记录:
2020.9.2 发布正式版V3.0
新增采集问答平台有:搜狗指南、360问答、悟空问答 、新浪爱问
多种采集格式 ,兼容问答平台文章性
聚合程序新增标题限制,发布标题控制在32个字以内(搜索引擎展示64bytes,如果在前面插入关键词将导致标题过长)
聚合程序z-blog自动发布可以批量多个分类发布
聚合程序优化了文章内部问题 ,聚合中的每篇文章标题将采用h2标签,插入的关键词将使用strong强调标签
生成的文章不再是纯文本内容,而是含有标签的聚合文章
强调一下,z-blog自动发布时候,需要关闭任何编辑器,否则代码文本无法自动转码
2020.8.28 发布正式版V2.0
【问答采集程序更新】
1.稳定的采集配置,模拟人工访问页面
2.根据关键词采集,行业内容更加精准
3.多线程采集,提升数十倍采集聚合效率
【文章聚合程序更新】
1.支持z-blog自动发布,设置发布条数和时间间隔
2.根据含有特定关键词的文章聚合,行业主题更加精准
3.聚合文章头部底部插入固定句子
4.文章标题前面插入权重关键词并且自动创建标签
5.可以设置聚合文章数量,调用次数
6.文章内容关键词替换
文章聚合软件_权重站采集聚合程序_秒收录技巧问答采集聚合伪原创
-----------------问答平台采集文章聚合伪原创程序配置说明----------------
教程视频:https://space.bilibili.com/334530446/video
一、cont_spider.exe问答采集程序配置
spider.conf配置[config]
采集配置
type=百度
采集类型包括:百度:百度知道
threads=4
采集线程:线程数量
dbcharset=utf8
[baidu] 百度知道采集配置 keywords=黑帽SEO培训|SEO培训|关键词优化 根据关键词采集 例如:SEO|网站优化|网站收录多个关键词用竖杠"|"分割 page=75 最大采集页数:不超过75 start=1 开始采集的页数:一般默认(从第一页开始采集) typeid=1 采集类型1:采集每页链接 2:采集链接问答内容(先采集链接后采集内容) path=baiduzhidao 文章保存路径 dbcharset=utf8
[wukong] 悟空问答采集 keywords=网站排名|搜狗排名 typeid=1 linkpath=wklink.txt wenzhangpath=wukongwenda dbcharset=utf8
[sougou] 搜狗指南采集 keywords=SEO|seo培训|网站建设|黑帽SEO优化 page=20 start=1 typeid=1 linkpath=sglink.txt wenzhangpath=sougouzhinan dbcharset=utf8
[360] 360问答采集 keywords=SEO|黑帽SEO优化|SEO优化 page=100 start=1 typeid=1 linkpath=360link.txt wenzhangpath=360wenda dbcharset=utf8
[xinlang] 新浪爱问采集 keywords=文章聚合 page=100 start=1 typeid=1 linkpath=xllink.txt wenzhangpath=xinlangaiwen dbcharset=utf8
[adslconfig]
宽带拨号配置
name=ADSL
宽带名称:一般是“ADSL”或者“宽带连接 ”自行在电脑右下角查看
user=123ABC
宽带账号
passwd=123456
宽带密码
dbcharset=utf8
bdlink.txt 保存采集到的问答文章链接二、create_article.exe文章聚合程序配置
creat.conf配置[config]
整体配置
platform=z-blog
自动发布:仅支持z-blog;留空会将生成的文章保存到shengcheng文件夹
number=5
生成文章数量或者每次发布文章数量
keywords=
获取含有特定关键词的文章进行拼接
filename =baiduzhidao
需要进行拼接的文章所在目录
head=
文章头部插入固定句子
foot=有任何疑问请联系站长扣扣61910465
文章底部插入固定句子
fixkeyword=2
文章中插入关键词数量
fixarticle=4
需要拼接文章的数量
replace=原标题,|最蜘蛛,趣快排|博兴,趣快排
替换或者删除文章中的词固定格式:
替换:最蜘蛛,趣快排
删除:原标题, 删除文章中的词将逗号后面留空即可
titimes=2
允许文章调用次数/允许文章标题使用次数
dbcharset=utf8
[zbconfig]
z-blog平台设置
admin_address=https://www.dushimatou.com/
z-blog后台地址查看方法:z-blog后台-网站设置-基础设置-网站地址
username=lance
需要发布文章的账号_用户名
password=123456
需要发布文章的账号_密码
typeid =2
z-blog发布分类ID
duration=3600
z-blog每次发布间隔时间(时间以秒为计算单位3600秒==1小时)
keyword.txt标题前面和内容中要插入的关键词以及创建tag的关键词 ,做行业流量可以去5118拓展行业词库长尾词,需要刷权重站的就去拓展权重词
usedTitle.txt被调用文章的标题保存,以此来统计文章以及标题调用次数 ,不要轻易删除,除非更换行业文章库
Shengcheng 生成的文章保存到此文件夹特别提示:
程序运行前请安装文件夹中的谷歌浏览器
采集问答文章程序先获取相关关键词链接,再采集具体文章
typeid=1 采集类型1:采集每页链接 2:采集链接问答内容(先采集链接后采集内容)
如上先设置 typeid=1 运行采集链接保存到bdlink.txt 采集完后再设置typeid=2 即开始采集bdlink.txt里面链接的文章内容 3. 运行程序请先双击打开文件夹中的cmd.bat程序,再将主运行程序拖进去,在cmd中回车即可运行。 原创程序:https://www.seogurublog.com/seotool 原文链接:https://www.seogurublog.com/20200820615.html