不懂正则，却写过爬虫 - imjl - ITeye博客

`

imjl

浏览: 154328 次
性别:
来自: 上海

最近访客更多访客>>

maven_su

benhuo931115

lappaport

mjy1132

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

1285132895：能讲的具体一点吗？或者提供一点资料也行啊
Apache Tika 文件内容提取工具
shuyanbo：想法很好。网站停掉了？好像不能访问。
为什么要搭论坛
mistbow：论坛进不去了。。。。
目前我感兴趣的，希望有同好，一起学习
柏瑞克李：我觉得lucene的打分更多的依赖于 query parse ...
我为什么没有用lucene的score来排序
alexzhan：因为在greader上订阅了你的博客。所以看到了你的文章。
2010-8-3扯淡

不懂正则，却写过爬虫

PHP XML C C++C#

阅读更多

正则一大堆东西，我不知道。

但是写爬虫要用到正则，尤其我以前写过智能型爬虫。

举例爬取：<a href="a.html" target=_blank>test</a>

php我通常会写成 $p = "/<a href="(.+?)".*?>(.+?)<\/a>/is";

.*? 理解成过滤信息

(.+?) 你要拿得信息

这样的写法 C# 也可以。。如果java可以，请回下。

分享到：

无聊猜想：高并发，更新要求高的解决思路 | 我为什么没有用lucene的score来排序

2010-02-08 10:18
浏览 1796
评论(4)
分类:互联网
查看更多

评论

4 楼 ivan.zhuang 2010-02-26

试试把html转化成xml 然后用xpath，xquery解析

3 楼 illu 2010-02-10

智能型爬虫。。机器学习么。。

2 楼 imjl 2010-02-08

看博客

大概意思可以见我回你的问题

1 楼 lzj0470 2010-02-08

怎么智能法？方便解释一下吗？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

网页解析器，用于网络爬虫解析页面, 不懂网页解析也能写爬虫.zip: 遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...

《用python写网络爬虫》第二章，看不懂你打我。: 正则表达式 Xpath BeautifulSoup 1、本章学习路径：正则表达式–>Xpath–>BeautifulSoup 2、Requests最核心的两个类： request（对HTTP请求的封装） response（对HTTP返回结果的封装）一次HTTP请求其实就是：（1）...

简单但绝不简陋的 Python3 爬虫项目.zip: 遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...

Python爬虫知识点梳理: 爬虫涉及的技术包括但不限于熟练一门编程语言（这里以 Python 为例） HTML 知识、HTTP 协议的基本知识、正则表达式、数据库知识，常用抓包工具的使用、爬虫框架的使用、涉及到大规模爬虫，还需要了解分布式的概念、...

【爬虫专栏1】类型介绍: 其实很早就想写一个爬虫专栏了，这次就我以前写的一点点爬虫做个整理，我比较喜欢用lxml，json提取和正则表达式进行爬虫，Scrapy用得不多，bs4呢...有些地方可能写的比较简单直接贴代码了，不懂的可以私信我，程序都是

零基础写python爬虫之抓取百度贴吧代码分享: 这里就不给大家废话了，直接上代码，代码的解释都在注释里面，看不懂的也别来问我，好好学学基础知识去！复制代码代码如下: # -*- coding: utf-8 -*- #————————————— # 程序：百度贴吧爬虫 # 版本...

spider爬虫部署及使用.doc: 要熟练运用要懂CSS选择器,正则等,只要几部简单爬虫平台可以拿回家了. 请严格按照当地法规法律,本文作者不承担法律责任.只为学习和优化部署方案,平台是开源的,有什么请找作者谢谢

Python爬虫进阶之爬取篮球赛数据: 对于学习爬虫的小白来说一定要注意robots协议，也称为爬虫协议，机器人协议等，一般网站都会通过该协议告诉搜索引擎哪些页面可以爬取或不可以爬取。首先我们在要爬取网站url后面加上robots.txt，虽然对于robots...

Java、Python哪家强？十万条应聘数据告诉你（含源代码）——网络爬虫第三天: 如果大家没有看之前的requests课程，必须去看一下，不然看不懂今天的课程的！点我查看requests课程：网络爬虫——实战项目2（爬取某社区所有论文，含代码）一、课程介绍今天我做的项目是利用requests模块爬取前途...

wechat_spider:nodejs+anyproxy appium+python 自动化抓取微信公众号文章: 替换正文的正则更新 new：加入appium和python脚本，利用redis作为通信设施，达到python操作手机脚本和原nodejs 程序通信配合，让整个爬虫全自动化运行 ps: 本人不是很懂nodejs，原作者的bug，新加的功能都是很...

贪吃蛇java程序源码-humingk.github.io:个人博客: 正则表达式就是那种，写的时候看文档，写完之后能用，过段时间看不懂，下一次写的时候又要看文档...这里总结复习一下基础语法及常用例子，也方便快速查阅 SQL相关由于以前爬虫获取的豆瓣电影资料库数据库结构考虑...

基于Flask+Pyecharts开发的实习僧网站数据可视化源码+项目说明: 不懂运行，下载完可以私聊问，可远程教学该资源内项目源码是个人的毕设，代码都测试ok，都是运行成功后才上传资源，答辩评审平均分达到96分，放心下载使用！ 1、该资源内项目代码都经过测试运行成功，功能ok的情况...

Python百度图片爬取器: 有不懂的代码可以私信作者！文件介绍：https://img-blog.csdnimg.cn/a05c72b9ac6f46bf8d1afdc082b0c837.png 软件截图：https://img-blog.csdnimg.cn/6472aaa18f3d4572944eac15de6dc3db.png #资源达人分享计划#

史上最好传智播客就业班.net培训教程60G 不下会后悔: 正因为如此，社会上充斥着大量这样的“拖控件的开发人员”，使得很多Java、PHP等语言的开发人员诋毁ASP.Net开发人员的时候经常会说“你们什么都不懂，就会拖控件”。ASP.Net的快速开发是ASP.Net非常大的一个优点，...

Global site tag (gtag.js) - Google Analytics