Crawler

前幾天看到有人用 node.js 寫一個爬蟲續抓取 decard 的功能。因此就直接套用 crawler4j 寫一個類似的功能。

由於幾乎沒什麼需要特別處理的，所以就不多做介紹了。

直接執行 ImageCrawlController 這裡頭的 main 方法即可。

ImageCrawlController 中的 crawlDomains 是用來存放要爬的網頁。

如果有一些爬取網頁的邏輯需要調整，主要是修改 MyCrawler。

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
src/main		src/main
.gitignore		.gitignore
README.md		README.md
pom.xml		pom.xml

Provide feedback