今天想簡單紀錄一下java 爬蟲的知識,是關於"找子類別元素,爬取父類別元素" 的文章
我要這麼做的原因,因為某些網站父類別元素沒有系統的排列,而它的子類別元素是有系統的排列的。因此我想要先找到有系統排列的子類別元素,再回頭去把它的父類別元素抓下來。
以下直接用程式碼說明(這是一個簡單經節的搜尋程式):
String html = js.executeScript("return document.body.innerHTML;").toString(); //將抓下來的程式碼存在變數為html的String中
org.jsoup.nodes.Document doc= Jsoup.parse(html); //解析html
Elements ids = doc.select("a[name=\""+v+"\"]"); //去選擇我要的元素(子類別元素的規律是a[name="經節出處"])
String verse=null; //設一變數verse
for(Element id:ids) {
verse=id.parent().parent().text(); //用.parent()的函式去抓取父類別的元素,用兩次因為經節在第二層的父類別,也就是父類別的父類別。
System.out.println(verse);
lb1.setText(verse);
}
完整程式碼可以參考我的github: Link
由於最近時間不是很多,因此這個程式非常陽春。之後有空會再更新得更實用。
}