在 PulsarRPA 中,连续采集非常简单,只需要将链接提交到 UrlPool 就行了,采集循环会自动启动。而 PulsarRPA 的基础设施也会去确保数据质量、调度质量等核心问题。
在小规模的数据采集项目中,譬如每天监控竞争对手的数百个产品价格、库存状态、新增评论等,可以使用连续采集。
连续采集可以从下面的代码开始:
fun main() {
val context = PulsarContexts.create()
val parseHandler = { _: WebPage, document: FeaturedDocument ->
// do something wonderful with the document
println(document.title + "\t|\t" + document.baseUri)
// extract more links from the document
context.submitAll(document.selectHyperlinks("a[href~=/dp/]"))
}
val urls = LinkExtractors.fromResource("seeds10.txt").map { ParsableHyperlink("$it -refresh", parseHandler) }
context.submitAll(urls).await()
}