用正則提取網頁信息時發現部分網頁提取不到的情況,仔細分析原因原來是要提取的信息中包含了換行符,比如提取網頁標題<title>(.*?)</title>可以提取到絕大部分網頁標題,但是如果標題中包含了換行符就提取不到了,比如:<title>
我是標題,您提取不到我
</title>,這種情況下,就提取不到了,怎么辦呢?其實只需要在正則的前面加上 (?s) 即可忽略換行符。
信息網址:http://www.fengyetimber.com/ziyuan/view16766.htm