close

今天想簡單紀錄一下java 爬蟲的知識,是關於"找子類別元素,爬取父類別元素" 的文章


我要這麼做的原因,因為某些網站父類別元素沒有系統的排列,而它的子類別元素是有系統的排列的。因此我想要先找到有系統排列的子類別元素,再回頭去把它的父類別元素抓下來。

以下直接用程式碼說明(這是一個簡單經節的搜尋程式): 
                       

 

            String html = js.executeScript("return document.body.innerHTML;").toString();  //將抓下來的程式碼存在變數為html的String中
            org.jsoup.nodes.Document doc= Jsoup.parse(html);   //解析html
            Elements ids = doc.select("a[name=\""+v+"\"]");  //去選擇我要的元素(子類別元素的規律是a[name="經節出處"])


            String verse=null; //設一變數verse
            for(Element id:ids) {
                   verse=id.parent().parent().text();      //用.parent()的函式去抓取父類別的元素,用兩次因為經節在第二層的父類別,也就是父類別的父類別。
                   System.out.println(verse);
                   lb1.setText(verse);
            }
            
       


完整程式碼可以參考我的github: Link

由於最近時間不是很多,因此這個程式非常陽春。之後有空會再更新得更實用。

 


        }

arrow
arrow
    創作者介紹
    創作者 charliech17 的頭像
    charliech17

    國全張的部落格

    charliech17 發表在 痞客邦 留言(0) 人氣()