Qt利用DOM API访问网页元素(百度博客下载例子)

news/2024/7/10 23:35:11 标签: qt, 百度, api, blog, html, class
class="baidu_pl">
class="article_content clearfix">
class="class="tags" href="/tags/HTML.html" title=html>htmledit_views">

 

class="copyright" style="margin-left: 15px; margin-right: 15px;"> 本站所有文章由本站和原作者保留一切权力,仅在保留本版权信息、原文链接、原文作者的情况下允许转载,转载请勿删改原文内容, 并不得用于商业用途。 谢谢合作。
class="index" style="margin-left: 15px; margin-right: 15px;"> 原文链接: Qt利用DOM API访问网页元素(class="tags" href="/tags/BaiDu.class="tags" href="/tags/HTML.html" title=html>html" title=百度>百度博客下载例子)

 

class="entry">

Qt-4.6.0新增的一个功能就是QtWebKit提供了利用DOM访问管理网页的接口。

所谓DOM(文件对象模型),就是把一个HTML网页内容以一个带层次结构的对象来处理,比如网页中的标题,段落,图表等都是这个层次对象中的一个节点。这些节点可大可小,顶级节点就是整个文档,最小的节点可以是网页中的一个链接,或者一个图片。利用DOM就能很方便的提取和处理网页中用户所感兴趣的内容。下面用一个对class="tags" href="/tags/BaiDu.class="tags" href="/tags/HTML.html" title=html>html" title=百度>百度博客的处理来简单说明。

比如:http://hi.baidu.com/yobin/class="tags" href="/tags/BLOG.class="tags" href="/tags/HTML.html" title=html>html" title=blog>blog/item/9036520f8c85a1216159f366.class="tags" href="/tags/HTML.html" title=html>html,这个网页里有博客的标题,博客的具体内容,以及前一篇和后一篇的链接。我们通过网页的源代码可以看到有

class="tags" href="/tags/BLOG.class="tags" href="/tags/HTML.html" title=html>html" title=blog>blog" class="modbox" style="overflow-x: hidden;">

<div id=”m_class="tags" href="/tags/BLOG.class="tags" href="/tags/HTML.html" title=html>html" title=blog>blog” style=”overflow-x:hidden;”>
<div>这个城市(2)</div>
—-无关内容—

class="modbox" style="overflow-x: hidden;"> </div>

这里的<div>开始和</div>结束就是一个节点,id为”m_class="tags" href="/tags/BLOG.class="tags" href="/tags/HTML.html" title=html>html" title=blog>blog“在class="tags" href="/tags/BaiDu.class="tags" href="/tags/HTML.html" title=html>html" title=百度>百度博客里指明是和博客内容相关的部分。对应在Qt里对应的对象类是QWebElement,如果我们要读取这里的标题可以用下面代码实现。

QWebElement doc = mainframe->documentElement();
QWebElement m_class="tags" href="/tags/BLOG.class="tags" href="/tags/HTML.html" title=html>html" title=blog>blog = doc.findFirst(“#m_class="tags" href="/tags/BLOG.class="tags" href="/tags/HTML.html" title=html>html" title=blog>blog”);
QWebElement e_title = m_class="tags" href="/tags/BLOG.class="tags" href="/tags/HTML.html" title=html>html" title=blog>blog.findFirst(“.tit”);
title->setText(e_title.toPlainText());

这里mainframe是QWebFrame类型的对象,mainframe->documentElement()获得了整个文章的内容,是顶级节点。通过doc.findFirst(“#m_class="tags" href="/tags/BLOG.class="tags" href="/tags/HTML.html" title=html>html" title=blog>blog”)可以找到整个文章中m_class="tags" href="/tags/BLOG.class="tags" href="/tags/HTML.html" title=html>html" title=blog>blog第一次出现的地方。然后再在这个节点里寻找class为tit的子节点,toPlainText()能够获得节点中的内容。注意findFirst里的参数语法#号开头的查找id名的,点号”.”开头的则是查找class名字的,如果没有前面符号的则是查找标准HTML标记比如findFirst(“body”)。当然这些语法可以组合起来使用,符合CSS选择器的标准语法,请参考Standard CSS2 selector syntax。查找QWebElement子元素的方法还有 firstChild(),nextSibling (),parent (),previousSibling()等,具体内容可以查看QWebElement的类帮助。

下面再来看一下前后篇文章链接的HTML代码是如何的.

<div id=”in_nav”>
上一篇:<a title=”新股中签的回报率” href=”/yobin/class="tags" href="/tags/BLOG.class="tags" href="/tags/HTML.html" title=html>html" title=blog>blog/item/86ad9223e5add74fad34de92.class="tags" href="/tags/HTML.html" title=html>html”>新股中签的回报率</a>
下一篇:<a title=”人民时评:且看美国的信息自由” href=”/yobin/class="tags" href="/tags/BLOG.class="tags" href="/tags/HTML.html" title=html>html" title=blog>blog/item/dc3491587b51cbd59c8204ba.class="tags" href="/tags/HTML.html" title=html>html”>人民时评:且看美国的信息自由</a></div>

HTML中除了标签内容之外,还有关于这个标签的属性,可以用attribute()来得到,下面是Qt读取链接的代码

QWebElement e_nav=m_class="tags" href="/tags/BLOG.class="tags" href="/tags/HTML.html" title=html>html" title=blog>blog.findFirst(“#in_nav”);
QWebElement prev_nav=e_nav.findFirst(“a”);
prev->setText(“http://hi.baidu.com”+prev_nav.attribute(“href”));
QWebElement next_nav=prev_nav.nextSibling();
next->setText(“http://hi.baidu.com”+next_nav.attribute(“href”));

有了前后文链接,要下载博客里所有文章就不是难事了。下面是我的例子代码和截图


http://www.niftyadmin.cn/n/1748342.html

相关文章

运行移植的wvdial出错

移植wvdial后在ARM开发板上运行时出现下列错误&#xff1a; wvdial: utils/wvtask.cc:198: WvTaskMan::WvTaskMan(): Assertion getcontext(&get_stack_return) 0 failed Aborted 解决办法&#xff1a;修改代码 --- include/wvtask.h.orig Mon Jul 14 13:11:35 2008 in…

git忽略已经被管理的文件

为什么80%的码农都做不了架构师&#xff1f;>>> 原文地址 今天往git上传了个项目&#xff0c;没有注意有个500m的大家伙在里面&#xff0c;就一并commitpush了&#xff0c;然后噩梦就来了。 首先是报错&#xff1a; remote: warning: Large files detected. remote…

3G卡片在开发板上的详细解决方法(适用于大多数3G卡片)

3G卡片在开发板上的详细解决方法(适用于大多数3G卡片) Anson Luo(罗国辉) 一&#xff0e; 环境 1. 开发板内核&#xff1a;linux kernel 2.6.14 2. 3G卡片&#xff1a;HUAWEI E1750 二&#xff0e; 相关工具与库文件下载 1. usb_modeswitch-1.0.6.tar.bz2(http://www.draisberg…

网易2017实习生招聘机试题--消除重复元素

题目&#xff1a; 小易有一个长度为n序列&#xff0c;小易想移除掉里面的重复元素&#xff0c;但是小易想是对于每种元素保留最后出现的那个。小易遇到了困难,希望你来帮助他。 输入描述&#xff1a;输入包括两行&#xff1a; 第一行为序列长度n(1 ≤ n ≤ 50)第二行为n个数seq…

ppp拨号上网(1)

由于一个嵌入式平台上项目开发的需要,在arm平台上实施ppp拨号上网。说起这个Linux平台的ppp拨号上网&#xff0c;也许很多人觉很简单&#xff0c;网上的成功的例子很多&#xff01;不错&#xff0c;你说的对&#xff0c;但是我还要给点我的看法&#xff0c;就是这个简单的ppp拨…

JavaWeb学习路线(11)—— Maven延伸

一、分模块设计 &#xff08;一&#xff09;概念&#xff1a; 将项目按功能拆分出若干个子模块。 &#xff08;二&#xff09;作用&#xff1a; 方便项目管理维护、扩展&#xff0c;也方便模块间相互调用&#xff0c;资源共享。 &#xff08;三&#xff09;具体实现 1、抽取…

TinyPNGNodeJSBatcher-基于TinyPNG的批量压缩图片工具

by AlexQ &#xff08;email alexq_andr163.com&#xff09; 工程源码托管在 GitHub follow&star tinypngPandaTinyPNG Smart PNG and JPEG compression Optimize your images with a perfect balance in quality and file size.复制代码如果你想进一步了解TinyPNG压缩图片…

四步完成Linux ppp拨号

在一些系统中&#xff0c;我们可以进行一下ppp拨号设置的实验。那么这里我们就重点讲解一下Liod平台的ppp拨号&#xff08;linux&#xff09;的内容和过程。硬件平台&#xff1a;亿道Liod平台&#xff08;基于PXA270&#xff09;&#xff0c;操作系统&#xff1a;嵌入式Linux。…