日韩天天综合网_野战两个奶头被亲到高潮_亚洲日韩欧美精品综合_av女人天堂污污污_视频一区**字幕无弹窗_国产亚洲欧美小视频_国内性爱精品在线免费视频_国产一级电影在线播放_日韩欧美内地福利_亚洲一二三不卡片区

php提取網(wǎng)頁(yè)正文內(nèi)容的例子_PHP教程

編輯Tag賺U幣
教程Tag:暫無Tag,歡迎添加,賺取U幣!

推薦:PHP官方Windows擴(kuò)展列表
發(fā)現(xiàn)很多學(xué)PHP的同學(xué)常常因?yàn)檎也坏絇HP在windows下對(duì)應(yīng)的擴(kuò)展而抓破頭,因此分享一下PHP Windows所有可以找到的擴(kuò)展索引資源: PHP 5.2/5.3的Windows擴(kuò)展索引站點(diǎn): 在這里你可以找到諸如php_oci8.dll, php_memcache.dll, php_mongo.dll, php_apc.dll等常用的Windows擴(kuò)

   因?yàn)殡y點(diǎn)在于如何去識(shí)別并保留網(wǎng)頁(yè)中的文章部分,而且刪除其它無用的信息,并且要做到通用化,不能像火車頭那樣根據(jù)目標(biāo)站來制定采集規(guī)則,因?yàn)樗阉饕娼Y(jié)果中有各種的網(wǎng)頁(yè)。

  抓回一個(gè)頁(yè)面的數(shù)據(jù),如何匹配出正文部分,鄭曉在下班路上想了個(gè)思路是:

  1. 提取出body標(biāo)簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標(biāo)簽(包括標(biāo)簽內(nèi)不含中文的)–>獲取結(jié)果。

  2. 直接匹配出非鏈接的、 符合在div、p、h標(biāo)簽中的中文部分???

  還是會(huì)有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建議?

  這個(gè)類是從網(wǎng)上找到的一個(gè)php實(shí)現(xiàn)的提取網(wǎng)頁(yè)正文部分的算法,鄭曉在本地也測(cè)試了下,準(zhǔn)確率非常高。

  使用起來也非常簡(jiǎn)單,實(shí)例化時(shí)傳入網(wǎng)頁(yè)的html源碼和相應(yīng)的編碼,然后直接調(diào)用其getContent方法即可返回提取到的正文部分,提取出的文章中可能還會(huì)含有少部分鏈接,可以自己后期再修改

分享:修改php.ini中的max_input_vars參數(shù)限制提交的表單數(shù)量
折騰了半天,發(fā)現(xiàn)了這個(gè)奧秘,原來php小版本升級(jí)引起的不兼容, php.ini 文件里的 max_input_vars 默認(rèn)值為 1000, 正常情況下夠用,偶爾遇到我這種提交2000多個(gè)表單的情況還是比較少見的,不過,如果發(fā)現(xiàn)提交表單個(gè)數(shù)不全的情況,可以試試修改這個(gè)配置。 修改后重啟ph

來源:模板無憂//所屬分類:PHP教程/更新時(shí)間:2014-12-01
相關(guān)PHP教程