打印

求个批量HTML提取指定class内容的方法

eva3d

毛熊爸

魔神至尊

苹果神教

帖子: 28693
精华: 1
积分: 54734
激骚: 1368 度
爱车: EZ
主机: 全都有
相机: 黑卡5
手机: X
注册时间: 2004-2-23

PS区 2020年度白金奖☆☆☆☆ 数码区 iPhone6 发售纪念☆☆☆

发短消息
加为好友
当前离线

1^# 大中小发表于 2013-4-28 14:46 只看该作者

posted by wap, platform: iPhone

免费软件还是脚本，什么都行...

TOP

eva3d

毛熊爸

魔神至尊

苹果神教

帖子: 28693
精华: 1
积分: 54734
激骚: 1368 度
爱车: EZ
主机: 全都有
相机: 黑卡5
手机: X
注册时间: 2004-2-23

PS区 2020年度白金奖☆☆☆☆ 数码区 iPhone6 发售纪念☆☆☆

发短消息
加为好友
当前离线

2^# 大中小发表于 2013-4-28 14:48 只看该作者

posted by wap, platform: iPhone

提取的内容是 <td class="post-body> </td> 里面的内容

TOP

使徒-

小黑屋

帖子: 110
精华: 0
积分: 29
激骚: 17 度
爱车
主机
相机
手机
注册时间: 2013-4-23

发短消息
加为好友
当前离线

3^# 大中小发表于 2013-4-28 15:10 只看该作者

posted by wap, platform: Chrome

用javascript还是其他脚本语言？

TOP

bluewings

魔头

帖子: 1322
精华: 0
积分: 15401
激骚: 202 度
爱车: 什么
主机: 能改变
相机: 一个人的本质？
手机
注册时间: 2005-4-7

TGFC 2014新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前离线

4^# 大中小发表于 2013-4-28 15:15 只看该作者

小说提取正文？

TOP

cc0128

元始天尊

帖子: 43760
精华: 0
积分: 52995
激骚: 1713 度
爱车: 11路
主机: 3ds, xbox one
相机: ep5
手机: nexus 5
来自: 北方三线城市
注册时间: 2005-12-17

PS区大收藏家奖☆☆☆ TGFC 2018新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前离线

5^# 大中小发表于 2013-4-28 15:45 只看该作者

posted by wap, platform: GOOGLE (Nexus 4)

写个程序弄很快的吧

TOP

黑暗骑士巫妖王

小黑屋

帖子: 5672
精华: 0
积分: 10251
激骚: 403 度
爱车
主机
相机
手机
注册时间: 2011-10-13

发短消息
加为好友
当前离线

6^# 大中小发表于 2013-4-28 15:53 只看该作者

posted by wap, platform: Nexus 7

python+BeautifulSoup干这个是神器，只要几行代码就搞定了。下面附上以前用抓新浪微博的：

# -*- coding:UTF-8 -*-

import urllib2
from BeautifulSoup import BeautifulSoup
# 微博的地址
weiboUrl= "******"

htmlStr = urllib2.urlopen(weiboUrl)
soup = BeautifulSoup(htmlStr)

# 分析微博主头像
weiboFacePic = soup.find('div',{"class":"weiboShow_developer_pic"}).find("img"

weiboFacePic['class'] = "weiboFacePic"

# 分析每个微博内容单元
weiboUnit = soup.findAll('div',{"class":"weiboShow_mainFeed_listContent"})
for keyi in weiboUnit:
weiboUnitText = keyi.find('p',{"class":"weiboShow_mainFeed_listContent_txt"})
weiboUnitText['class'] = "weiboUnitText"

weiboUnitImg = keyi.find('img')

weiboUnitSendTime = keyi.find('span',{"class":"weiboShow_mainFeed_listContent_actionTime"})
weiboUnitSendTime['class'] = "weiboUnitSendTime"
for keyj in weiboUnitText:
print weiboFacePic
print "<div class='weiboContent'>","<a href='http://e.weibo.com/2179063294/app_738247391' target='_blank' style='color:#6EAFD5'>******</a>："
print keyj,"</div>"
print weiboUnitImg
print "<div style='text-align:right;' class='weibotime'>",weiboUnitSendTime.contents,"</div>"
print """<div style="border-bottom:1px dotted #DFDFDF; height:10px; margin-bottom:11px;"></div>"""

TOP

黑暗骑士巫妖王

小黑屋

帖子: 5672
精华: 0
积分: 10251
激骚: 403 度
爱车
主机
相机
手机
注册时间: 2011-10-13

发短消息
加为好友
当前离线

7^# 大中小发表于 2013-4-28 16:09 只看该作者

posted by wap, platform: Nexus 7

# -*- coding:UTF-8 -*-

import urllib2
from BeautifulSoup import BeautifulSoup
# 设定抓取的HTML的地址
htmlUrl= "http://www.cnbeta.com/" # 既然是测试就抓CNBETA吧

htmlStr = urllib2.urlopen(htmlUrl) # 读取网址的HTML内容
soup = BeautifulSoup(htmlStr) # 将HTML内容用BSoup解析，保存到soup变量中

# 分析每个微博内容单元
#htmlUnit = soup.findAll('td',{"class":"post-body"}) #把 class='post-body' 的 td提取出来
htmlUnit = soup.findAll('dt',{"class":"topic"}) # 这里就改成cnbeta上文章标题的class吧
for keyi in htmlUnit:
print keyi.contents # 加上.contents是只显示你指定标签内的内容，不加则显示包括dt class='topic' 的全部内容

TOP

eva3d

毛熊爸

魔神至尊

苹果神教

帖子: 28693
精华: 1
积分: 54734
激骚: 1368 度
爱车: EZ
主机: 全都有
相机: 黑卡5
手机: X
注册时间: 2004-2-23

PS区 2020年度白金奖☆☆☆☆ 数码区 iPhone6 发售纪念☆☆☆

发短消息
加为好友
当前离线

8^# 大中小发表于 2013-4-28 16:17 只看该作者

posted by wap, platform: iPhone

引用:

原帖由 @黑暗骑士巫妖王于 2013-4-28 15:53 发表
posted by wap, platform: Nexus 7

python+BeautifulSoup干这个是神器，只要几行代码就搞定了。下面附上以前用抓新浪微博的：

# * coding:UTF8 *

import urllib2
from BeautifulSoup import BeautifulSoup
...

能弄成批量导入本地html的么？

TOP

黑暗骑士巫妖王

小黑屋

帖子: 5672
精华: 0
积分: 10251
激骚: 403 度
爱车
主机
相机
手机
注册时间: 2011-10-13

发短消息
加为好友
当前离线

9^# 大中小发表于 2013-4-28 16:20 只看该作者

posted by wap, platform: Nexus 7

批量导入很简单啊，python操作几行就搞定，甚至你自己编个批处理都很简单

TOP

刘泪

小黑屋

帖子: 5028
精华: 0
积分: 16887
激骚: 194 度
爱车
主机
相机
手机
注册时间: 2003-12-3

发短消息
加为好友
当前离线

10^# 大中小发表于 2013-4-28 17:05 只看该作者

正则表达式在向你微笑

TOP

lrj2u

混世魔头

帖子: 2369
精华: 1
积分: 11608
激骚: 472 度
爱车
主机
相机
手机
注册时间: 2002-11-26

TGFC 2014新年勋章☆☆☆☆ TGFC 2015新年勋章☆☆☆☆ TGFC 2016新年勋章☆☆☆☆

发短消息
加为好友
当前离线

11^# 大中小发表于 2013-4-28 17:24 只看该作者

python和正则表示式向你微笑

TOP

黑暗骑士巫妖王

小黑屋

帖子: 5672
精华: 0
积分: 10251
激骚: 403 度
爱车
主机
相机
手机
注册时间: 2011-10-13

发短消息
加为好友
当前离线

12^# 大中小发表于 2013-4-28 17:26 只看该作者

posted by wap, platform: Nexus 7

正则表达式早就过时了，你有写正则表达式的时间，各种HTML、XML解析库早就搞定啦，处理这类玩意还是专业的库更可靠

TOP

lvcha

银河飞将

帖子: 37433
精华: 0
积分: 35264
激骚: 2113 度
爱车
主机
相机
手机
注册时间: 2002-8-26

TGFC 2015新年勋章☆☆☆☆

发短消息
加为好友
当前离线

13^# 大中小发表于 2013-4-28 17:35 只看该作者

引用:

原帖由 黑暗骑士巫妖王 于 2013-4-28 17:26 发表
posted by wap, platform: Nexus 7

正则表达式早就过时了，你有写正则表达式的时间，各种HTML、XML解析库早就搞定啦，处理这类玩意还是专业的库更可靠

+1
java可以用jsoup，挺简单的。
Connection c = Jsoup.connect(“xxxx”);
Document doc = c.get();
Elements ele = doc.select("td[class=post-body]");
for (Element element : ele) {
String txt= element.text();
}
其它语言肯定也有类似的库。

TOP

chronicle1st

小黑屋

帖子: 4301
精华: 0
积分: 6231
激骚: 339 度
爱车
主机
相机
手机
注册时间: 2010-8-8

发短消息
加为好友
当前离线

14^# 大中小发表于 2013-4-28 17:37 只看该作者

posted by wap, platform: Android

复制到word里面。。。
用通配符

TOP

xu33

魔王撒旦

帖子: 9909
精华: 0
积分: 26726
激骚: 467 度
爱车
主机
相机
手机
注册时间: 2006-1-26

TGFC 2018新年勋章☆☆☆☆ TGFC 2019新年勋章☆☆☆☆

发短消息
加为好友
当前离线

15^# 大中小发表于 2013-4-28 19:49 只看该作者

posted by wap, platform: Chrome

我说一个偏门一点的，用AJAX请求你这个要解析的这个HTML文件到浏览器，去掉不必要的标签后插入页面，然后操作JS用DOM提取再发送给后台存储。

TOP