WebHarvy



WebHarvy 是一个直观的可视化抓取器,可以轻松地从网站上抓取文本、HTML、图像、URL 和电子邮件。内置浏览器允许您点击特定内容进行抓取。光标检测网页上出现的数据模式。如果数据重复出现,该工具会自动进行抓取,而不需要任何额外的用户输入。只需点击几下,就能提取多个页面上的整个列表。最后,WebHarvy 以 Excel、XML、CSV、JSON 和 TSV 格式保存抓取的数据。

要将 IPHTML 代理集成到 WebHarvy,请按照以下步骤操作:


第一步:首先,通过 webharvy.com下载并安装 WebHarvy 应用程序。一旦设置好,导航到 Settings(设置)。


第二步:点击代理设置。选择标记 Enable network connection via Proxy Server(通过代理服务器启用网络连接),并选择 HTTP 作为您的 Type(类型)。



第三步:填写所需凭证。在 Address(地址)下,输入 server.iphtml.biz ,并在 Port (端口)类型下输入 15000 。点击标记 Requires authentication(需要认证)输入您的 IPHTML 子用户Username(用户名)和密码(Password)。点击 "+" 按钮,将您新输入的代理添加到列表中。最后,按下 Apply(申请)完成 WebHarvy 代理集成。



最后,设置完成。现在您可以浏览互联网,并标记要抓取的具体行数。通过点击 Start(开始),您可以开始选择您的目标数据。