取名字网站源码(编程起名网站)

        有朋友留言,受欢迎的孩子名字该怎么起,想知道受欢迎的宝宝名字有哪些?下面就来跟随【聚缘旭】老师,详细看看好听的名字大全吧。人无完人,名无完美,喜欢与否取决于个人喜好感悟,聚缘旭老师建议参考孩子生辰八字之后再做使用


文本处理其实是一个很大的题目,无法用文本处理这个名字来概括,从这里这一章开始,我们直接用子项目名做名称。

关键词:HTML代码

下面我们开始一个新的内容,就是从网页代码的文本文件中提取文字。网页代码,我们一般也叫他html代码

下面我们有一个文本文件,内容如下

取名字网站源码(编程起名网站)

内容很长很长,我们仅仅取出一个屏幕,能做范例就好。

下面的题目是,从这个代码文件中,我们提取出要看的内容。为此,我们编写一个程序做个练习。这个程序的名字叫《网页代码中提取文字.py》。

先开始做第一件事,在不做任何修改的情况下,直接读取文本文件的内容。

于是我们编写了下面一个程序

取名字网站源码(编程起名网站)

阅读过前面文章的人,这个程序一看就懂,不用再解释了。运行后,显示效果如下

取名字网站源码(编程起名网站)

如果让我们从这段代码中读出里面的中文内容,我相信是非常困难的。

下面研究的课题就是,把中间有用的中文部分内容挑选出来,其他的代码部分去掉,还要尽量保持应该保持的段落,最后有条件的话,再把内容进行一下加工,最后保持文章的主体部分。总之,内容多多如何处理呢?

首先,我们将研究第一个问题,了解网页代码的基本知识。看下图

取名字网站源码(编程起名网站)

取名字网站源码(编程起名网站)

第一张图片,是一个网页的基本框架。第二张图片,我们对他进行了标注,绿色部分是网页的头部信息,红色部分是网页中的实质内容。黄色的圈圈,就是网页的全部代码。

网页的代码通常用尖括号把它标注出来,他有很多的特殊符号,本格式如下

<html></html>这两个是匹配的,中间就是网页代码具体的内容。

<body></body>这两个也是匹配的,中间是代码中文章体内容的具体部分。

<p></p>这两个也是匹配的,中间是文章段落的具体部分。

HTML语言,大部分内容都是这样配对的,个别的不配对。

由于内容实在太多,我们仅做最简单的介绍。只要掌握一个规律就可以啦,这个规律就是,代码一般都是用尖括号括起来的。

需要说明的是,网页代码我们可以随便打开一个网页,查看源代码就可以看到。我们研究的是通过取出文字的内容来研究文本处理的方法。

声明:本文为 聚缘旭 编辑,图文来源于网络如有侵权,敬请告知删除

宝宝起名找聚缘旭大师: 备注:起名

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 sumchina520@foxmail.com 举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.bbqm18.com/2984.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注