文章聚合软件

tech2022-09-14 180

一、问答平台多线程采集聚合

# 采集类型，包括：百度：百度知道、搜狗：搜狗指南、360:360问答、悟空：悟空问答、新浪：新浪爱问 type = str(getConfig("config", "type")) # 采集线程数,根据电脑配置设置,几核的处理器就选择几 threads = getConfig("config", "threads") # 多线程链接队列 if Register(): print('>> 序列号验证通过,开始运行') if type.count('百度')>0: # 根据关键词采集例如：SEO|网站优化|网站收录多个关键词用竖杠"|"分割 keyword = getConfig("baidu", "keywords") keys = keyword.split('|') # 采集多少页，百度知道最多75页 page = int(getConfig("baidu", "page")) # 开始页码（采集中断后可以直接从断开页码开始采集） start = int(getConfig("baidu", "start")) # 采集类型 1：只采集问答链接 2：采集链接问答内容 typeid = getConfig("baidu", "typeid") # 链接保存路径 linkpath = getConfig("baidu", "linkpath") # 文章保存路径 wenzhangpath =getConfig("baidu", "wenzhangpath") # 百度知道采集链接 if typeid == "1": word_queue = Queue() for keywords in keys: word_queue.put(keywords) for i in range(len(keys)): consumer = threading.Thread(target=Baidusearch, args=(word_queue,)) consumer.daemon = True consumer.start() word_queue.join() # 百度知道采集文章 elif typeid == "2": link_queue=Queue() links = readbdlink() for k in links: link_queue.put(k.strip()) for i in range(int(threads)): consumer = threading.Thread(target=Baidu, args=(link_queue,)) consumer.daemon = True consumer.start() link_queue.join() if type.count('悟空')>0: # 根据关键词采集例如：SEO|网站优化|网站收录多个关键词用竖杠"|"分割 keyword = getConfig("wukong", "keywords") keys = keyword.split('|') # 采集类型 1：只采集问答链接 2：采集链接问答内容 typeid = getConfig("wukong", "typeid") # 链接保存路径 linkpath = getConfig("wukong", "linkpath") # 文章保存路径 wenzhangpath = getConfig("wukong", "wenzhangpath") # 悟空问答采集链接 if typeid == "1": word_queue = Queue() for keywords in keys: word_queue.put(keywords) for i in range(len(keys)): consumer = threading.Thread(target=Wukongsearch, args=(word_queue,)) consumer.daemon = True consumer.start() word_queue.join() # 悟空问答采集文章 elif typeid == "2": link_queue = Queue() links = readbdlink() for k in links: link_queue.put(k.strip()) for i in range(int(threads)): consumer = threading.Thread(target=Wukong, args=(link_queue,)) consumer.daemon = True consumer.start() link_queue.join() if type.count('搜狗')>0: # 根据关键词采集例如：SEO|网站优化|网站收录多个关键词用竖杠"|"分割 keyword = getConfig("sougou", "keywords") keys = keyword.split('|') # 采集多少页，搜狗指南最多75页 page = int(getConfig("sougou", "page")) # 开始页码（采集中断后可以直接从断开页码开始采集） start = int(getConfig("sougou", "start")) # 采集类型 1：只采集问答链接 2：采集链接问答内容 typeid = getConfig("sougou", "typeid") # 链接保存路径 linkpath = getConfig("sougou", "linkpath") # 文章保存路径 wenzhangpath = getConfig("sougou", "wenzhangpath") # 搜狗指南采集链接 if typeid == "1": word_queue = Queue() for keywords in keys: word_queue.put(keywords) for i in range(len(keys)): consumer = threading.Thread(target=Sougousearch, args=(word_queue,)) consumer.daemon = True consumer.start() word_queue.join() # 搜狗指南采集文章 elif typeid == "2": link_queue = Queue() links = readbdlink() for k in links: link_queue.put(k.strip()) for i in range(int(threads)): consumer = threading.Thread(target=Sougou, args=(link_queue,)) consumer.daemon = True consumer.start() link_queue.join() if type.count('360') >0: # 根据关键词采集例如：SEO|网站优化|网站收录多个关键词用竖杠"|"分割 keyword = getConfig("360", "keywords") keys = keyword.split('|') # 采集多少页，360问答最多100页 page = int(getConfig("360", "page")) # 开始页码（采集中断后可以直接从断开页码开始采集） start = int(getConfig("360", "start")) # 采集类型 1：只采集问答链接 2：采集链接问答内容 typeid = getConfig("360", "typeid") # 链接保存路径 linkpath = getConfig("360", "linkpath") # 文章保存路径 wenzhangpath = getConfig("360", "wenzhangpath") # 360问答采集链接 if typeid == "1": word_queue = Queue() for keywords in keys: word_queue.put(keywords) for i in range(len(keys)): consumer = threading.Thread(target=Qihusearch, args=(word_queue,)) consumer.daemon = True consumer.start() word_queue.join() # 百度知道采集文章 elif typeid == "2": link_queue = Queue() links = readbdlink() for k in links: link_queue.put(k.strip()) for i in range(int(threads)): consumer = threading.Thread(target=Qihu, args=(link_queue,)) consumer.daemon = True consumer.start() link_queue.join() if type.count('新浪')>0: # 根据关键词采集例如：SEO|网站优化|网站收录多个关键词用竖杠"|"分割 keyword = getConfig("xinlang", "keywords") keys = keyword.split('|') # 采集多少页，新浪爱问最多100页 page = int(getConfig("xinlang", "page")) # 开始页码（采集中断后可以直接从断开页码开始采集） start = int(getConfig("xinlang", "start")) # 采集类型 1：只采集问答链接 2：采集链接问答内容 typeid = getConfig("xinlang", "typeid") # 链接保存路径 linkpath = getConfig("xinlang", "linkpath") # 文章保存路径 wenzhangpath = getConfig("xinlang", "wenzhangpath") # 新浪爱问采集链接 if typeid == "1": word_queue = Queue() for keywords in keys: word_queue.put(keywords) for i in range(len(keys)): consumer = threading.Thread(target=Xinlangsearch, args=(word_queue,)) consumer.daemon = True consumer.start() word_queue.join() # 新浪爱问采集文章 elif typeid == "2": link_queue = Queue() links = readbdlink() for k in links: link_queue.put(k.strip()) for i in range(int(threads)): consumer = threading.Thread(target=Xinlang, args=(link_queue,)) consumer.daemon = True consumer.start() link_queue.join()

二、权重站操作技巧文章聚合软件程序介绍更新记录：

2020.9.2 发布正式版V3.0

新增采集问答平台有:搜狗指南、360问答、悟空问答、新浪爱问

多种采集格式，兼容问答平台文章性

聚合程序新增标题限制，发布标题控制在32个字以内（搜索引擎展示64bytes，如果在前面插入关键词将导致标题过长）

聚合程序z-blog自动发布可以批量多个分类发布

聚合程序优化了文章内部问题，聚合中的每篇文章标题将采用h2标签,插入的关键词将使用strong强调标签

生成的文章不再是纯文本内容,而是含有标签的聚合文章

强调一下,z-blog自动发布时候,需要关闭任何编辑器,否则代码文本无法自动转码

2020.8.28 发布正式版V2.0

【问答采集程序更新】

1.稳定的采集配置，模拟人工访问页面

2.根据关键词采集，行业内容更加精准

3.多线程采集，提升数十倍采集聚合效率

【文章聚合程序更新】

1.支持z-blog自动发布，设置发布条数和时间间隔

2.根据含有特定关键词的文章聚合，行业主题更加精准

3.聚合文章头部底部插入固定句子

4.文章标题前面插入权重关键词并且自动创建标签

5.可以设置聚合文章数量，调用次数

6.文章内容关键词替换

文章聚合软件_权重站采集聚合程序_秒收录技巧问答采集聚合伪原创

-----------------问答平台采集文章聚合伪原创程序配置说明----------------

教程视频:https://space.bilibili.com/334530446/video

一、cont_spider.exe问答采集程序配置

spider.conf配置

[config]

采集配置

type=百度

采集类型包括：百度：百度知道

threads=4

采集线程:线程数量

dbcharset=utf8

[wukong] 悟空问答采集 keywords=网站排名|搜狗排名 typeid=1 linkpath=wklink.txt wenzhangpath=wukongwenda dbcharset=utf8

[sougou] 搜狗指南采集 keywords=SEO|seo培训|网站建设|黑帽SEO优化 page=20 start=1 typeid=1 linkpath=sglink.txt wenzhangpath=sougouzhinan dbcharset=utf8

[360] 360问答采集 keywords=SEO|黑帽SEO优化|SEO优化 page=100 start=1 typeid=1 linkpath=360link.txt wenzhangpath=360wenda dbcharset=utf8

[xinlang] 新浪爱问采集 keywords=文章聚合 page=100 start=1 typeid=1 linkpath=xllink.txt wenzhangpath=xinlangaiwen dbcharset=utf8

[adslconfig]

宽带拨号配置

name=ADSL

宽带名称：一般是“ADSL”或者“宽带连接 ”自行在电脑右下角查看

user=123ABC

宽带账号

passwd=123456

宽带密码

dbcharset=utf8

bdlink.txt 保存采集到的问答文章链接

二、create_article.exe文章聚合程序配置

creat.conf配置

[config]

整体配置

platform=z-blog

自动发布：仅支持z-blog；留空会将生成的文章保存到shengcheng文件夹

number=5

生成文章数量或者每次发布文章数量

keywords=

获取含有特定关键词的文章进行拼接

filename =baiduzhidao

需要进行拼接的文章所在目录

head=

文章头部插入固定句子

foot=有任何疑问请联系站长扣扣61910465

文章底部插入固定句子

fixkeyword=2

文章中插入关键词数量

fixarticle=4

需要拼接文章的数量

replace=原标题,|最蜘蛛,趣快排|博兴,趣快排

替换或者删除文章中的词固定格式：

替换：最蜘蛛,趣快排

删除：原标题, 删除文章中的词将逗号后面留空即可

titimes=2

允许文章调用次数/允许文章标题使用次数

dbcharset=utf8

[zbconfig]

z-blog平台设置

admin_address=https://www.dushimatou.com/

z-blog后台地址查看方法：z-blog后台-网站设置-基础设置-网站地址

username=lance

需要发布文章的账号_用户名

password=123456

需要发布文章的账号_密码

typeid =2

z-blog发布分类ID

duration=3600

z-blog每次发布间隔时间(时间以秒为计算单位3600秒==1小时)

keyword.txt

标题前面和内容中要插入的关键词以及创建tag的关键词，做行业流量可以去5118拓展行业词库长尾词，需要刷权重站的就去拓展权重词

usedTitle.txt

被调用文章的标题保存，以此来统计文章以及标题调用次数，不要轻易删除，除非更换行业文章库

Shengcheng 生成的文章保存到此文件夹

特别提示：

程序运行前请安装文件夹中的谷歌浏览器

采集问答文章程序先获取相关关键词链接，再采集具体文章

typeid=1 采集类型1：采集每页链接 2：采集链接问答内容（先采集链接后采集内容）

如上先设置 typeid=1 运行采集链接保存到bdlink.txt 采集完后再设置typeid=2 即开始采集bdlink.txt里面链接的文章内容 3. 运行程序请先双击打开文件夹中的cmd.bat程序,再将主运行程序拖进去,在cmd中回车即可运行。原创程序:https://www.seogurublog.com/seotool 原文链接:https://www.seogurublog.com/20200820615.html

最新回复(0)