`
imjl
  • 浏览: 154328 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

不懂正则,却写过爬虫

阅读更多
正则一大堆东西,我不知道。

但是写爬虫要用到正则,尤其我以前写过智能型爬虫

举例爬取:<a href="a.html" target=_blank>test</a>

php我通常会写成 $p = "/<a href="(.+?)".*?>(.+?)<\/a>/is";

.*? 理解成过滤信息

(.+?) 你要拿得信息


这样的写法 C# 也可以。。如果java可以,请回下。

分享到:
评论
4 楼 ivan.zhuang 2010-02-26  
试试把html转化成xml 然后用xpath,xquery解析
3 楼 illu 2010-02-10  
智能型爬虫。。 机器学习么。。
2 楼 imjl 2010-02-08  
看博客

大概意思可以见我回你的问题


1 楼 lzj0470 2010-02-08  
怎么智能法?方便解释一下吗?

相关推荐

    网页解析器,用于网络爬虫解析页面, 不懂网页解析也能写爬虫.zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    《用python写网络爬虫》第二章,看不懂你打我。

    正则表达式 Xpath BeautifulSoup 1、本章学习路径:正则表达式–&gt;Xpath–&gt;BeautifulSoup 2、Requests最核心的两个类: request(对HTTP请求的封装) response(对HTTP返回结果的封装) 一次HTTP请求其实就是:(1)...

    简单但绝不简陋的 Python3 爬虫项目.zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    Python爬虫知识点梳理

    爬虫涉及的技术包括但不限于熟练一门编程语言(这里以 Python 为例) HTML 知识、HTTP 协议的基本知识、正则表达式、数据库知识,常用抓包工具的使用、爬虫框架的使用、涉及到大规模爬虫,还需要了解分布式的概念、...

    【爬虫专栏1】类型介绍

    其实很早就想写一个爬虫专栏了,这次就我以前写的一点点爬虫做个整理,我比较喜欢用lxml,json提取和正则表达式进行爬虫,Scrapy用得不多,bs4呢...有些地方可能写的比较简单直接贴代码了,不懂的可以私信我,程序都是

    零基础写python爬虫之抓取百度贴吧代码分享

    这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! 复制代码 代码如下: # -*- coding: utf-8 -*- #————————————— # 程序:百度贴吧爬虫 # 版本...

    spider爬虫部署及使用.doc

    要熟练运用要懂CSS选择器,正则等,只要几部简单爬虫平台可以拿回家了. 请严格按照当地法规法律,本文作者不承担法律责任.只为学习和优化部署方案,平台是开源的,有什么请找作者谢谢

    Python爬虫进阶之爬取篮球赛数据

    对于学习爬虫的小白来说一定要注意robots协议,也称为爬虫协议,机器人协议等,一般网站都会通过该协议告诉搜索引擎哪些页面可以爬取或不可以爬取。 首先我们在要爬取网站url后面加上robots.txt, 虽然对于robots...

    Java、Python哪家强?十万条应聘数据告诉你(含源代码)——网络爬虫第三天

    如果大家没有看之前的requests课程,必须去看一下,不然看不懂今天的课程的! 点我查看requests课程:网络爬虫——实战项目2(爬取某社区所有论文,含代码) 一、课程介绍 今天我做的项目是利用requests模块爬取前途...

    wechat_spider:nodejs+anyproxy appium+python 自动化抓取微信公众号文章

    替换正文的正则更新 new: 加入appium和python脚本, 利用redis作为通信设施, 达到python操作手机脚本 和 原nodejs 程序通信配合, 让整个爬虫全自动化运行 ps: 本人不是很懂nodejs,原作者的bug,新加的功能都是很...

    贪吃蛇java程序源码-humingk.github.io:个人博客

    正则表达式就是那种,写的时候看文档,写完之后能用,过段时间看不懂,下一次写的时候又要看文档...这里总结复习一下基础语法及常用例子,也方便快速查阅 SQL相关 由于以前爬虫获取的豆瓣电影资料库数据库结构考虑...

    基于Flask+Pyecharts开发的实习僧网站数据可视化源码+项目说明

    不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况...

    Python百度图片爬取器

    有不懂的代码可以私信作者! 文件介绍:https://img-blog.csdnimg.cn/a05c72b9ac6f46bf8d1afdc082b0c837.png 软件截图:https://img-blog.csdnimg.cn/6472aaa18f3d4572944eac15de6dc3db.png #资源达人分享计划#

    史上最好传智播客就业班.net培训教程60G 不下会后悔

    正因为如此,社会上充斥着大量这样的“拖控件的开发人员”,使得很多Java、PHP等语言的开发人员诋毁ASP.Net开发人员的时候经常会说“你们什么都不懂,就会拖控件”。ASP.Net的快速开发是ASP.Net非常大的一个优点,...

Global site tag (gtag.js) - Google Analytics