 |
常见问题:
类别的用途是什么?用户自定义分类,可以将用户自认为相关的信息归在一起,便于管理和查询。
采集信息的时候应该注意什么问题?采集信息的时候应尽量保障网络的流畅,此时最好不要观赏在线电影和下载过大的文件.本软件完全支持多线程多任务,在网络带宽占用和CPU使用率上都做了最大优化。为了保证每个任务能顺利运行,建议同时运行的任务数不要超过5个。
这个软件都支持什么数据库?目前经过测试的有:Access sqlserver Mysql和Oracle. 如果您在用其他类型的数据库, 请告诉我们.
为什么导入数据库有时发生异常?导入到数据库的数据,默认的都是字符串类型,因为从网上采集的数据,难免有不规范的,而字串是通用的数据类型。因此,当导入异常时,可检查数据库表是否有其他类型,确保所有的列都是字符串类型。
需要登录的网站怎么采集信息? 需要登录才可以看到的网站,要先在任务的'其他设置里进行登录,然后取得Cookies就可以采集了.
我想让采集的速度更快一些,可以吗?可以更快,如果你的带宽允许的话,可适当调高采集线程(设置里有该选项,默认为5个线程).另外如果数据量很大,你也可以把数据分解成几部分,建立多个任务同时采集.这是一个真正的多线程多任务的采集软件.
我按照上面说的做了,确实快了很多,但我把线程数调的很大,怎么效果不明显了?采集速度受三方面影响:网络带宽,采集网站的响应速度和采集线程数.前两项是制约采集速度的瓶颈,如果网络速度不快,提高线程的效果就不明显.建议线程数值(以普通ADSL为例):512K 可10个线程 , 1M - 2M 可40个线程 .当然,具体线程数为多少最佳,要结合自己的网络情况而定.
怎么有的网站数据采集下来是乱码?一般来说,中文网站是GB2132编码,有的可能是Unicode(UTF-8)码.碰到乱码情况,可在'任务设置-其他设置-编码设置'里,换另外的编码方式.默认的是GB2132编码或者是自动判断.
非中文信息能采集吗?和采集中文信息是一样的.英文,日文,繁体等都可以采集,软件附带有一个采集英文信息的例子.
想了解如何使用?快来看新手指南吧 !
|