前幾天看到有人用 node.js 寫一個爬蟲續抓取 decard 的功能。因此就直接套用 crawler4j 寫一個類似的功能。
由於幾乎沒什麼需要特別處理的,所以就不多做介紹了。
直接執行 ImageCrawlController 這裡頭的 main 方法即可。
ImageCrawlController 中的 crawlDomains 是用來存放要爬的網頁。
如果有一些爬取網頁的邏輯需要調整,主要是修改 MyCrawler。
| Name | Name | Last commit date | ||
|---|---|---|---|---|
前幾天看到有人用 node.js 寫一個爬蟲續抓取 decard 的功能。因此就直接套用 crawler4j 寫一個類似的功能。
由於幾乎沒什麼需要特別處理的,所以就不多做介紹了。
直接執行 ImageCrawlController 這裡頭的 main 方法即可。
ImageCrawlController 中的 crawlDomains 是用來存放要爬的網頁。
如果有一些爬取網頁的邏輯需要調整,主要是修改 MyCrawler。