html学习笔记(1)——简介
文章目录
本文来自于对 HTML教程 的整理。
1. HTML简介
1. 概述
HTML 是网页使用的语言,定义了网页的结构和内容。浏览器访问网站,其实就是从服务器下载 HTML 代码,然后渲染出网页。
1999年,HTML 4.01 版发布,成为广泛接受的 HTML 标准。2014年,HTML 5 发布,这是目前正在使用的版本。
浏览器的网页开发,涉及三种技术:HTML、CSS 和 JavaScript。HTML 语言定义网页的结构和内容,CSS样式表定义网页的样式,JavaScript 语言定义网页与用户的互动行为。
2. 网页的基本概念
2.1 标签
网页的 HTML 代码由许许多多不同的标签(tag)构成。学习 HTML 语言,就是学习各种标签的用法。
下面就是标签的一个例子:
|
|
上面代码中,<title>和</title>就是一对标签。标签用来告诉浏览器,如何处理这段代码。标签的内容就是浏览器所要渲染的、展示在网页上的内容。
标签放在一对尖括号里面(比如<title>),大多数标签都是成对出现的,分成开始标签和结束标签,结束标签在标签名之前加斜杠(比如</title>)。但是,也有一些标签不是成对使用,而是只有开始标签,没有结束标签,比如<meta>标签:
|
|
上面代码中,<meta>标签就没有结束标签</meta>。这种单独使用的标签,通常是因为标签本身就足够完成功能了,不需要标签之间的内容。实际应用中,它们主要用来提示浏览器,做一些特别处理。
标签可以嵌套:
|
|
上面代码中,<div>标签内部包含了一个<p>标签。
嵌套时,必须保证正确的闭合顺序,不能跨层嵌套,否则会出现意想不到的渲染结果。
HTML 标签名是大小写不敏感,比如<title>和<TITLE>是同一个标签。不过,一般习惯都是使用小写。
另外,HTML 语言忽略缩进和换行。下面几种写法的渲染结果是一样的。
|
|
进一步说,整个网页的 HTML 代码完全可以写成一行,浏览器照样解析,结果完全一样。所以,正式发布网页之前,开发者有时会把源码压缩成一行,以减少传输的字节数。
各种网页的样式效果,比如内容的缩进和换行,主要靠 CSS 来实现。
2.2元素
浏览器渲染网页时,会把 HTML 源码解析成一个标签树,每个标签都是树的一个节点(node)。这种节点就称为网页元素(element)。所以,“标签”和“元素”基本上是同义词,只是使用的场合不一样:标签是从源码角度来看,元素是从编程角度来看,比如<p>标签对应网页的p元素。
嵌套的标签就构成了网页元素的层级关系。
|
|
上面代码中,div元素内部包含了一个p元素。上层元素又称为“父元素”,下层元素又称为“子元素”,即div是p的父元素,p是div的子元素。
2.3 块级元素
所有元素可以分成两大类:块级元素(block)和行内元素(inline)。
块级元素默认占据一个独立的区域,在网页上会自动另起一行,占据 100% 的宽度。
|
|
上面代码中,p元素是块级元素,因此浏览器会将内容分成两行显示。
行内元素默认与其他元素在同一行,不产生换行。比如,span就是行内元素,通常用来为某些文字指定特别的样式。
|
|
上面代码中,span元素是行内元素,因此浏览器会将两行内容放在一行显示。
2.3 属性
属性(attribute)是标签的额外信息,使用空格与标签名和其他属性分隔。
|
|
上面代码中,<img>标签有两个属性:src和width。
属性可以用等号指定属性值,比如上例的demo.jpg就是src的属性值。属性值一般放在双引号里面,这不是必需的,但推荐总是使用双引号。
注意,属性名是大小写不敏感的,onclick和onClick是同一个属性。
HTML 提供大量属性,用来定制标签的行为,详细介绍请看《元素的属性》一章。
3.网页的基本标签
符合 HTML 语法标准的网页,应该满足下面的基本结构。
|
|
不管多么复杂的网页,都是从上面这个基本结构衍生出来的。
前面说过,HTML 代码的缩进和换行,对于浏览器不产生作用。所以,上面的代码完全可以写成一行,渲染结果不变。上面这样分行写,只是为了提高可读性。
下面就依次介绍,这个基本结构的主要标签。它们构成了网页的骨架。
3.1 <!doctype>
网页的第一个标签通常是<!doctype>,表示文档类型,告诉浏览器如何解析网页。
一般来说,只要像下面这样,简单声明doctype为html即可。浏览器就会按照 HTML 5 的规则处理网页。
|
|
有时,该标签采用完全大写的形式,以便区别于正常的 HTML 标签。因为<!doctype>本质上不是标签,更像一个处理指令。
|
|
3.2 <html>
<html>标签是网页的顶层容器,即标签树结构的顶层节点,也称为根元素(root element),其他元素都是它的子元素。一个网页只能有一个<html>标签。
该标签的lang属性,表示网页内容默认的语言。
|
|
上面代码表示,网页是中文内容。如果是英文内容,zh-CN要改成en。
3.3 <head>
<head>标签是一个容器标签,用于放置网页的元信息。它的内容不会出现在网页上,而是为网页渲染提供额外信息。
|
|
<head>是<html>的第一个子元素。如果网页不包含<head>,浏览器会自动创建一个。
<head>的子元素一般有下面七个,后文会一一介绍。
<meta>:设置网页的元数据。<link>:连接外部样式表。<title>:设置网页标题。<style>:放置内嵌的样式表。<script>:引入脚本。<noscript>:浏览器不支持脚本时,所要显示的内容。<base>:设置网页内部相对 URL 的计算基准。
3.4 <meta>
<meta>标签用于设置或说明网页的元数据,必须放在<head>里面。一个<meta>标签就是一项元数据,网页可以有多个<meta>。<meta>标签约定放在<head>内容的最前面。
不管什么样的网页,一般都可以放置以下两个<meta>标签。
|
|
上面例子中,第一个<meta>标签表示网页采用 UTF-8 格式编码,第二个<meta>标签表示网页在手机端可以自动缩放。
<meta>标签有五个属性,下面依次介绍。
-
charset属性<meta>标签的charset属性,用来指定网页的编码方式。该属性非常重要,如果设置得不正确,浏览器可能无法正确解码,就会显示乱码。1<meta charset="utf-8">上面代码声明,网页为
UTF-8编码。虽然开发者可以使用其他的编码方式,但正确的做法几乎总是应该采用UTF-8。注意,这里声明的编码方式,应该与网页实际的编码方式一致,即声明了
utf-8,网页就应该使用UTF-8编码保存。如果这里声明了utf-8,实际却是使用另一种编码(比如GB2312),并不会导致浏览器的自动转码,网页可能会显示为乱码。 -
name属性,content属性<meta>标签的name属性表示元数据的名字,content属性表示元数据的值。它们合在一起使用,就可以为网页指定一项元数据。1 2 3 4 5<head> <meta name="description" content="HTML 语言入门"> <meta name="keywords" content="HTML,教程"> <meta name="author" content="张三"> </head>上面代码包含了三个元数据:
description是网页内容的描述,keywords是网页内容的关键字,author是网页作者。元数据有很多种,大部分涉及浏览器内部工作机制,或者特定的使用场景,这里就不一一介绍了。下面是一些例子。
1 2 3 4 5<meta name="viewport" content="width=device-width, initial-scale=1"> <meta name="application-name" content="Application Name"> <meta name="generator" content="program"> <meta name="subject" content="your document's subject"> <meta name="referrer" content="no-referrer"> -
http-equiv属性,content属性<meta>标签的http-equiv属性用来覆盖HTTP回应的头信息字段,content属性是对应的字段内容。这两个属性与HTTP协议相关,属于高级用法,这里就不详细介绍了。1<meta http-equiv="Content-Security-Policy" content="default-src 'self'">上面代码可以覆盖 HTTP 回应的
Content-Security-Policy字段。下面是另一些例子。
1 2 3<meta http-equiv="Content-Type" content="Type=text/html; charset=utf-8"> <meta http-equiv="refresh" content="30"> <meta http-equiv="refresh" content="30;URL='http://website.com'">
3.5 <title>
<title>标签用于指定网页的标题,会显示在浏览器窗口的标题栏。
|
|
搜索引擎根据这个标签,显示每个网页的标题。它对于网页在搜索引擎的排序,有很大的影响,应该精心安排,反映网页的主题。
<title>标签的内部,不能再放置其他标签,只能放置无格式的纯文本。
3.6 <body>
<body>标签是一个容器标签,用于放置网页的主体内容。浏览器显示的页面内容,都放置在它的内部。它是<html>的第二个子元素,紧跟在<head>后面。
|
|
4. 空格和换行
HTML 语言有自己的空格处理规则。标签内容的头部和尾部的空格,一律忽略不计。
|
|
上面代码中,hello前面的空格和world后面的空格,浏览器一律忽略不计。
标签内容里面的多个连续空格(包含制表符\t),会被浏览器合并成一个。
|
|
上面代码中,hello与world之间有多个连续空格,浏览器会将它们合并成一个。网页渲染的结果是,hello与world之间只有一个空格。
浏览器还会将文本里面的换行符(\n)和回车符(\r),替换成空格。
|
|
上面代码中,hello与world之间有多个换行,浏览器会将它们替换成空格,然后再将多个空格合并成一个。网页渲染的结果是,hello与world之间有一个空格。
这意味着,HTML 源码里面的换行,不会产生换行效果。
5. 注释
HTML 代码可以包含注释,浏览器会自动忽略注释。注释以<!--开头,以-->结尾,下面就是一个注释的例子。
|
|
2. URL简介
1. 概述
URL 是“统一资源定位符”(Uniform Resource Locator)的首字母缩写,中文译为“网址”,表示各种资源的互联网地址。下面就是一个典型的 URL。
|
|
所谓资源,可以简单理解成各种可以通过互联网访问的文件,比如网页、图像、音频、视频、JavaScript 脚本等等。只有知道了它们的 URL,才能在互联网上获取它们。
只要资源可以通过互联网访问,它就必然有对应的 URL。一个 URL 对应一个资源,但是同一个资源可能对应多个 URL。
URL 是互联网的基础。互联网之所以“互联”,就是因为网页可以通过“链接”(link),包含其他 URL。用户只要点击,就可以从一个 URL 跳转到另一个 URL,前往不同的网站。
2. 网址的组成部分
URL 由多个部分组成。下面是一个比较复杂的 URL,实际的 URL 通常不会有这么多部分。
|
|
我们看看,这个 URL 的各个部分。
2.1 协议
协议(scheme)是浏览器请求服务器资源的方法,上例是https://的部分,表示使用 HTTPS 协议。
互联网支持多种协议,必须指明网址使用哪一种协议,默认是 HTTP 协议。也就是说,如果省略协议,直接在浏览器地址栏输入www.example.com,那么浏览器默认会访问http://www.example.com。HTTPS 是 HTTP 的加密版本,出于安全考虑,越来越多的网站使用这个协议。
HTTP 和 HTTPS 的协议名称后面,紧跟着一个冒号和两个斜杠(://)。其他协议不一定如此,邮件地址协议mailto:的协议名后面只有一个冒号,比如mailto:foo@example.com。
2.2 主机
主机(host)是资源所在的网站名或服务器的名字,又称为域名。上例的主机是www.example.com。
有些主机没有域名,只有 IP 地址,比如192.168.2.15。这种情况常常出现在局域网。
2.3 端口
同一个域名下面可能同时包含多个网站,它们之间通过端口(port)区分。“端口”就是一个整数,可以简单理解成,访问者告诉服务器,想要访问哪一个网站。HTTP 协议的默认端口是80,如果省略了这个参数,服务器就会返回80端口的网站。
端口紧跟在域名后面,两者之间使用冒号分隔,比如www.example.com:80。
2.4 路径
路径(path)是资源在网站的位置。比如,/path/index.html这个路径,指向网站的/path子目录下面的网页文件index.html。
互联网的早期,路径是真实存在的物理位置。现在由于服务器可以模拟这些位置,所以路径只是虚拟位置。
路径可能只包含目录,不包含文件名,比如/foo/,甚至结尾的斜杠都可以省略。这时,服务器通常会默认跳转到该目录里面的index.html文件(即等同于请求/foo/index.html),但也可能有其他的处理(比如列出目录里面的所有文件),这取决于服务器的设置。一般来说,访问www.example.com这个网址,很可能返回的是网页文件www.example.com/index.html。
2.5 查询参数
查询参数(parameter)是提供给服务器的额外信息。参数的位置是在路径后面,两者之间使用?分隔,上例是?key1=value1&key2=value2。
查询参数可以有一组或多组。每组参数都是键值对(key-value pair)的形式,同时具有键名(key)和键值(value),它们之间使用等号(=)连接。比如,key1=value就是一个键值对,key1是键名,value1是键值。
多组参数之间使用&连接,比如key1=value1&key2=value2。
2.6 锚点
锚点(anchor)是网页内部的定位点,使用#加上锚点名称,放在网址的最后,比如#anchor。浏览器加载页面以后,会自动滚动到锚点所在的位置。
锚点名称通过网页元素的id属性命名,详见《元素的属性》一章。
3. URL字符
URL 的各个组成部分,只能使用以下这些字符。
- 26个英语字母(包括大写和小写)
- 10个阿拉伯数字
- 连词号(
-) - 句点(
.) - 下划线(
_)
此外,还有18个字符属于 URL 的保留字符,只能在给定的位置出现。比如,查询参数的开头是问号(?),也就是说,问号只能出现查询参数的开头,出现在其他位置就是非法的,会导致网址解析错误。网址的其他部分如果要使用这些保留字符,必须使用它们的转义形式。
既不属于合法字符、也不属于保留字符的其他字符(比如汉字),理论上不需要手动转义,可以直接写在 URL 里面,比如www.example.com/中国.html,浏览器会自动将它们转义,发给服务器。转义方法是使用这些字符的十六进制 UTF-8 编码,每两位算作一组,然后每组头部添加百分号(%)。
举例来说,汉字中的 UTF-8 十六进制编码是e4b8ad,每两个字符一组,URL 转义后就为%e4%b8%ad。也就是说,URL 里面凡是有汉字中的地方,都要写成%e4%b8%ad。因此,访问www.example.com/中国.html这个网址,需要写成下面的样子。
|
|
4. 绝对URL和相对URL
URL 分成两种:绝对 URL 和相对 URL。
绝对 URL 指的是,只靠 URL 本身就能确定资源的位置。这意味着,URL 必须带有资源的完整信息,包含协议、主机、路径等部分。前面的例子都是绝对 URL。
相对 URL 指的是,URL 不包含资源位置的全部信息,必须结合当前网页的位置,才能定位资源。比如,当前网页的 URL 是https://www.example.com/path/index.html,该网页上面有一个资源,URL 指向a.html,这个就是相对 URL。因为只知道a.html,并不能定位资源。浏览器假定,a.html与当前网址在同一个子目录下面,从而得到绝对 URL https://www.example.com/path/a.html。
相对 URL 如果以斜杠(/)开头,就表示网站的根目录。否则,必须以当前目录为起点,推算资源的位置。比如,相对 URL /foo/bar.html表示网站根目录的子目录foo,foo/bar.html表示在当前目录的foo子目录。
URL 还可以使用两个特殊简写,表示特定位置。
.:表示当前目录,比如./a.html(当前目录下的a.html文件)..:表示上级目录,比如../a.html(上级目录下的a.html文件)
这两种简写可以多个连用,比如../../表示上两级目录。
绝对 URL 也可以使用这两个简写,比如www.example.com/./index.html等同于www.example.com/index.html,这时.相当于根目录的当前目录,即根目录本身。
5. <base>
<base>标签指定网页内部的所有相对 URL 的计算基准。整张网页只能有一个<base>标签,而且只能放在<head>里面。它是单独使用的标签,没有闭合标签,下面是一个例子。
|
|
<base>标签的href属性给出计算的基准网址,target属性给出如何打开链接的说明(参见《链接》一章)。已知计算基准是https://www.example.com/files/,那么相对 URL foo.html,就可以转成绝对 URL https://www.example.com/files/foo.html。
注意,<base>标签必须至少具有href属性或target属性之一。
一旦设置了<base>,就对整个网页都有效。如果要改变某个链接的行为,只能用绝对链接替代相对链接。尤其需要注意锚点,这时锚点也是针对<base>计算的,而不是针对当前网页的 URL。
文章作者 punk1u
上次更新 2022-06-08