dedecms織夢自帶采集插件詳細圖文教程

2020-11-30


看到很多網友都為織夢(DEDE CMS)的采集教程頭疼,的確,官方出的教程太籠統了,什么都沒說,換個網站你什么都做不了,這個教程是最詳盡的教程,讓你一看即會


首先我們打開織夢后臺點擊 采集——采集節點管理——增加新節點


 
這里我們以采集普通文章為例,我們選擇普通文章,然后確定


 
我們進入了采集的設置頁面,填寫節點名稱,就是給這個新節點取個名字,這里你可以任意填寫。
然后打開你想要采集的文章列表頁,這里我們以織夢官網為例http://www.dedecms.com/web-manage/jianzhanxinde/打開這個頁面,右鍵——查看源文件
 
找到目標頁面編碼,就在charset后面


 
頁面基本信息其他的一般就不用管了,填完了如圖
 


現在我們來填寫列表網址獲取規則
看看文章列表第一頁的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_1.html
對比第二頁的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_2.html
我們發現了他們除了49_后面的數字不一樣,其他的都一樣,所以我們可以這樣寫
http://www.dedecms.com/web-manage/jianzhanxinde/list_49_(*).html
就是把1換成了(*) 因為這里只有2頁,所以我們就填從1到2 每頁遞增當然是1了,2-1...是等于1吧
這里我們就填寫完了 


可能大家采集的有些列表沒有規則,那就只有手工指定列表網址了,如圖
 


每行寫一個頁面地址
列表規則寫完了,我們就開始寫文章網址匹配規則了,回到文章列表頁
右鍵查看源文件 找到區域開始的HTML,就是找文章列表開始的標志。


 


我們很容易的找到了如圖中的“新聞列表” 。從這里開始,后面就是文章列表里
我們再找文章列表結束的HTML


 


就是這個了,一個很容易找到的標志


如果鏈接中含有圖片: 不處理 采集為縮略圖 這里根據自己的需要選擇
對區域網址進行再次篩選:
(使用正則表達式) 

必須包含: (優先級高于后者)
 不能包含:


打開源文件,我們可以很清楚的看到,文章鏈接都是以.html結束的
所以,我們在必須包含后面填.html 如果遇到有些列表很麻煩,還可以填寫后面的不能包含


 


 
我們點擊保存設置進入下一步,可以看到我們獲得的文章網址
看到這些就是對的了,我們保存信息進入下一步設置內容字段獲取規則
我們看看文章有沒有分頁,隨便進入一篇文章看看。。我們看到這里的文章沒有分頁
所以這里的我們就默認了


 


我們現在來找文章標題等等 隨便進入一篇文章,右鍵查看源文件
看看這些 

 


依照源碼填寫 

 


我們再來填寫文章內容的開始,結束
和上面的一樣,找到開始和結束標志
開始: 

 


結束: 


 

 


你想過濾文章中的什么內容就到過濾規則里寫吧,比如要過濾文章中的圖片

 


選擇常用規則 

 


再勾選IMG  然后確定
這樣我們就把正文中的圖片過濾了
設置完畢后點保存設置并預覽


 


這樣一個采集規則就寫好了,很簡單吧有些網站很難寫,可要多下點功夫了哦
我們點保存并開始采集——開始采集網頁 一會的功夫就采集完了


 


我們看看我們采集到的文章 


 

 


456 
看來是成功了,我們導出數據吧 


 


 
  首先選擇要導入到的欄目,按“請選擇”那里即可在彈出的窗口中選擇你需要導入的欄目發布選項這里一般默認即可,除非你不想馬上發布。每批導入默認是30條,這里修改與否都無所謂,附帶選項一般選“排除重復標題”,至于自動生成HTML那個選項建議先別生成,因為我們還要去批量提取摘要和關鍵字。

0
首頁
案例
關于
聯系
凯时平台