首页
手机版
您的位置:绿点软件站 > 电脑软件 > 网络工具 > 下载工具 > 火车采集器

火车采集器火车采集器v9.13.20200325 官方版

软件大小:30.1 MB

软件语言:简体中文

用户评分:

软件类型:国产软件

授权方式:免费版

软件官网:www.53307.com

更新时间:2020-03-26

软件分类:下载工具

运行环境:winxp/win7/win8/win10/

平台检测 无插件 360通过 腾讯通过 金山通过 瑞星通过
采集软件
火车采集器

火车采集器是一款专业强大的网页数据采集软件,可以帮助我们从任何类型的网站采集获取需要的信息,可轻松快速抓取下载网页上的文本、图片、视频等任何格式的文件资源,并通过软件的分析过滤功能,将这些文件整合为可用的数据,可对采集过程实时监控,实时报错方便及时修复,确保获得最全面精准的数据,软件还提供伪原创功能,支持同义词、近义词替换,支持汉译英、简转繁、转拼音等数据转换。火车采集器采集的速度快,采集的数据精准,是网站采集最优的选择。

火车采集器

软件介绍

火车采集器是一款专业的网页数据抓取、处理、分析,挖掘软件。软件凭借灵活的配置,可以轻松迅速地抓取网页上散乱分布的文本、图片等文件,并通过数据清洗、过滤、去噪等预处理后进行整合聚集存储,再进行数据的分析挖掘,最终将可用数据呈现。

火车采集器主要包含网址采集、内容采集、数据处理、数据发布、多任务多线程运行、HTTP二级代理服务器、计划任务管理器、任务运行日志管理和插件拓展九大特色功能。

软件特色

十二年口碑

火车采集器目前用户突破十万,十二年间在用户中形成了良好口碑,为我们的品牌传播奠定了基础。

真正通用

采集不限网页,不限内容,支持多种扩展,打破操作局限。采什么,如何采,都由您决定!

高效稳定

分布式高速采集系统,多个大型服务端同时稳定运作,快速分解任务量,最大化提升效率。

性价比高

高性能的产品,搭配亲民的价格,“为客户节约成本,提升价值”是火车采集器的服务理念。

数据精准

内置采集监控系统,实时报错及时修复;采集发布时确保数据零遗漏,为用户呈现最精准的数据。

软件功能

多线程高速并行采集系统

任务分配至多个客户端,同时运行采集,效率倍增。

多识别系统

配备正文识别、中文分词识别、任意编码识别等多种识别系统,智能识别操作更轻松。

可选验证方式

可选择是否使用加密狗,随时保障数据安全。

全自动运行

无需人工值守操作,任务完成后自动关机。

替换功能

同义,近义词替换、参数替换,伪原创必备技能。

任意文件格式下载

图片、压缩文件、视频等任意格式的文件都能轻松下载。

系统运行监控

监控数据质量,确保数据准确性。

支持多数据库

支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。

无限级多页采集

支持包含ajax请求数据在内的多个页面信息的无限级采集。

支持扩展

支持接口和插件扩展,满足各种采发需求。

软件优势

几乎所有网页都能采集

无论什么语言,

无论什么编码。

速度是普通采集器的7倍

火车采集器采用顶级系统配置,

反复优化性能,让采集速度快到飞起来!

和复制/粘贴一样准确

采集/发布如同复制/粘贴一样精准,

用户要的全都是精髓,怎能有遗漏!

网页采集的代名词

独具十年历练,成就业界领先品牌,

想到网页采集,就想到火车采集器!

详细功能

网址采集

火车采集器可以通过网址采集规则的设定,快速采集到所需的网址信息。可手动输入、批量添加或直接从文本导入网址,并能自动筛选去除重复的网址信息。支持多级页面网址的采集,多级网址采集可以使用页面分析自动得到地址、手动填写规则两种方式。应对多级分页中内容不同,但地址相同的页面网址采集,火车采集器设置了 GET,POST 和 ASPXPOST 三种 HTTP 请求方式。火车采集器支持网址采集测试,可以验证操作的正确性,避免操作有误导致采集结果不准确。

内容采集

火车采集器可以通过分析网页源代码,设定内容采集规则,精准采集到网页中散乱分布的内容数据,并支持多级多页等复杂页面中的内容采集。通过定义标签,能够将数据进行分类采集,比如将文章内容的标题与正文分开采集。

火车采集器配置了三种内容提取的方式:前后截取、正则提取、正文提取。可选性强,用户可以按照使用需求进行选择。内容采集同样支持测试功能,可选用一个典型页面来测试内容采集的正确性,以便及时更正和进行下一步数据处理。

数据处理

对于采集到的信息数据,火车采集器可以对其进行一系列的智能处理,使采集到的数据更加符合我们的使用标准。

主要包括 

1)标签过滤:过滤掉内容中不需要的空格,链接等标签;

2)替换:支持近义、同义词替换;

3)数据转换:支持汉译英、简转繁、转换为拼音等;

4)自动摘要、自动分词:支持自动生成摘要和自动分词功能;

5)下载选项:火车采集器支持任意格式的文件探测下载,并能够将相对地址智能补全为绝对地址。

数据发布

火车采集器将数据采集下来后默认将数据保存在本地数据库(sqlite、mysql、sqlserver),用户可以根据自己的需求选择对数据的后续操作以完成数据发布,支持直接查看数据、在线发布数据和入数据库,并支持用户进行发布接口的使用和开发。

根据数据库类型用相关软件打开可以直接查看数据,配置一个发布模块即可将数据在线发布到网站,可以设置自动登陆网站,获取栏目列表等;

如果入到用户自己的数据库中,用户只需写几个 SQL 语句,程序就会按照用户的 SQL 语句导入数据;

保存为本地文件时支持本地SQL 或文本文件(word、Excel、html,txt)格式。

多任务多线程运行

火车采集器可以选择同时运行多个任务,支持不同网站或同一站点下不同栏目的内容同时采集,能够有计划的调度任务。

单个任务在采集内容和发布内容时均可以使用多线程运行,提升运行效率。

HTTP二级代理服务器

火车采集器可以通过二级代理服务器的功能实现 IP 的更换,避免因 IP 被限制访问而导致的采集无法运行,用户需先获取一些代理 IP,然后将代理 IP 导入采集器中完成设置即可。

计划任务管理器

火车采集器支持计划任务管理,能够定时自动地进行采集发布,实现自动更新的功能,可对加入计划任务内的任务设置其执行的频率和开始运行的时间,执行频率可以选择每周、每天、每间隔,或根据用户需求自定义 corn 表达式执行。

任务运行日志管理

火车采集器配置了采集监控系统,任务运行管理器将采集监控模块生成的记录信息组装成日志条目,如果启用了自动运行功能或需要对程序运行状况进行监控,可以查看任务运行日志中某个日期时间段内的运行情况,来做具体的分析。可以具体了解到任务的成功数量、失败数量,重复数量和用时等数据。

插件扩展

火车采集器支持 PHP 和 C#插件扩展,可以帮助用户对采集的数据进行修改处理,完成用户的更多需求,极大的扩展了采集器的功能。用户可以按照插件开发手册自行开发所需插件,也可以使用火车采集器官方开发的一些插件资源。火车采集器中配置了插件管理器,可对插件列表进行管理和选择插件方法,支持插件测试。

菜单功能

火车采集器

1.新建分组

新建一个任务分组,选择所属分组,确定分组名称和备注。

2.新建任务

确定所属分组,新建一个任务,填写任务名称并保存。

3.Web发布配置

Web发布配置定义了如何登陆一个网站以及向该网站提交数据。

主要涉及到登录信息的获取,网站编码设定,栏目列表的获取,以及使用数据测试发布效果。

火车采集器

4.Web发布模块

可以定义网站登录,获取栏目列表,获取网页随机值,内容发布参数,以及上传文件,构造发布数据等高级功能。

火车采集器

5.数据库发布配置

数据库发布配置定义了数据库链接信息的设置以及数据库模块的选择。

6.数据库发布模块

用于编辑数据库的发布模块,方便我们将数据发布到配置好的数据库中。

火车采集器可选mysql、sqlserver、oracle、access四种数据库类型,在文本输入框中填写sql语句

(需有数据库相关知识),并可使用标签替换相应数据。也可在采集器模块文件夹中加载某一模块进行编辑。

火车采集器

7.计划任务

设置列表中采集任务的启动计划,可每间隔、每天、每周、仅一次、或自定义Cron表达式,

(Cron表达式的写法可参考相关术语中的介绍)。保存设置后,任务即可按照设置执行。

火车采集器

8.插件管理

插件是可以用来扩展火车采集器功能的程序

火车采集器V9支持PHP源码、C#源码、C#类库三种类型的插件,

可用于扩展http请求、内容处理和文件下载的功能,并可以分别进行测试。

9.http二级代理

网络中的服务器,可以让网络用户去取得所需要的网络信息。

代理的功能有可以突破自身ip的访问限制访问国外站点,访问一些单位或团体内部资源,

突破电信的ip封锁和隐藏真实的ip等。

火车采集器V9支持http代理、socket4和socket5代理。

火车采集器

10.http模拟请求

可以设置如何发起一个http请求,包括设置请求信息,返回头信息。并具有自动提交的功能。

更新日志

2020年

2020-03-23

火车采集器V9.13版

1: 新增数据库导入where条件筛选设置功能

2: 日志打印相关问题修复

3: 下载问题修复

4: 发布模块请求头相关问题修复

5: 列表页标签相关问题修复

6: 发布最大超时时间增加

7: 已生成的网址库修改后则下次不显示问题修复

8: 未能分析主机名修复

9: 其他已知问题修复

火车采集器与相关软件的区别

视频信息采集软件:视频信息采集软件是一款小视频批量采集下载软件,软件绿色免费,操作简单,粘贴分享链接以后,能够载入用户动态作品,支持选择保存自己喜欢的视频作品,也可以选择保存全部视频,支持预览视频,支持导出来至Excel、储存视频等实际操作!

Editortools_ET采集软件:Editortools_ET采集软件是一款非常出色的全自动无人值守采集软件,软件可以帮你轻松实现无人值守采集网站信息,全天实时监控并采集,实时为您提供内容更新,支持任意类型网站采集,支持任意格式文件下载,可以采集音乐、图片、文档、电影等各种文件资源。采集下来的文章可以进行快速的伪原创,只需设置好方案,即可自动工作,非常方便好用,是网站站长的好助手,需要的朋友快来心愿软件站下载使用吧!

爱发狗(文章采集软件):爱发狗文章采集是一款文章内容伪原创,集收集文章内容,原创文章內容,检验文章内容原創度等作用于一体,能够协助客户提高工作效能,节约上班时间。

下载地址

  • PC版
下载错误?【投诉报错】

火车采集器v9.13.20200325 官方版

下载地址1

    官方下载

      用户评论

      (已有条评论)
      返回顶部
      '); })();
      返回顶部