刚才发过出错了,可能是因为有链接,这次直接拷出来
一种Ajax网页内容的抓取方法及系统
申请号/专利号: 200910133630
本申请公开了一种Ajax网页内容的抓取方法及系统。一种Ajax网页内容的抓取方法包括:获取网页代码信息;提取所述网页代码信息中的JavaScript信息;解析所述JavaScript信息,确定所述网页代码中包含Ajax调用的函数;触发所确定的包含Ajax调用的函数,获得由所述包含Ajax调用的函数生成的网页内容。以上技术方案,通过解析网页代码中的JavaScript脚本信息,获得网页代码中包含Ajax调用的函数,进一步触发这些函数,即可得到由这些包含Ajax调用的函数所生成的网页内容,实现对Ajax网页中动态内容的抓取。应用以上技术方案,搜索引擎可以收录更为完整的网页内容,为搜索用户提供更好的检索服务。 |
|