Exotic Amazon (国内镜像)是采集整个 amazon.com 网站的完整解决方案,开箱即用,包含亚马逊大多数数据类型,它将永久免费提供并开放源代码。
其他电商平台数据采集,其方法和流程基本类似,可以在该项目基础上修改调整业务逻辑即可,其基础设施解决了所有大规模数据采集面临的难题。
得益于 PulsarRPA 提供的完善的 Web 数据管理基础设施,整个解决方案由不超过 3500 行的 Kotlin 代码和不到 700 行的 X-SQL 组成,以提取 650 多个字段。
git clone https://github.com/platonai/exotic-amazon.git
cd exotic-amazon && mvn
java -jar target/exotic-amazon*.jar
# Or on Windows:
java -jar target/exotic-amazon-{the-actual-version}.jar
打开 System Glances 以一目了然地查看系统状态。
所有 提取规则(国内镜像)都是用 X-SQL 编写的。数据类型转换、数据清理也由强大的 X-SQL 内联处理,这也是我们开发 X-SQL 的重要原因。一个很好的 X-SQL 例子是 x-asin.sql(国内镜像),它从每个产品页面中提取 70 多个字段。
默认情况下,结果以 json 格式写入本地文件系统。
有几种方法可以将结果保存到数据库中: