鹿鼎记
第三十二回 歌喉欲斷從弦續 舞袖能長听客夸
“......他說他本來什么也沒有,最多也不過仍舊什么都沒有,又有什么希罕了?他說他生平做了三件得意事,第一是逼死了明朝皇帝,第二是自己做過皇帝,第三是睡過了天下第一美人......”
正则表达式教程
关键字: 正则表达式,Regular Expression
作者:笑容
发表于:2004年05月03日
版权声明:使用创作公用版权协议
前言
正则表达式是烦琐的,但是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。只要认真去阅读这些资料,加上应用的时候进行一定的参考,掌握正则表达式不是问题。
索引
1. 引子
目前,正则表达式已经在很多软件中得到广泛的应用,包括*nix(Linux, Unix等),HP等操作系统,PHP,C#,Java等开发环境,以及很多的应用软件中,都可以看到正则表达式的影子。
正则表达式的使用,可以通过简单的办法来实现强大的功能。为了简单有效而又不失强大,造成了正则表达式代码的难度较大,学习起来也不是很容易,所以需要付出一些努力才行,入门之后参照一定的参考,使用起来还是比较简单有效的。
例子: ^.+@.+\..+$
这样的代码曾经多次把我自己给吓退过。可能很多人也是被这样的代码给吓跑的吧。继续阅读本文将让你也可以自由应用这样的代码。
注意:这里的第7部分跟前面的内容看起来似乎有些重复,目的是把前面表格里的部分重新描述了一次,目的是让这些内容更容易理解。
2. 正则表达式的历史
1956 年, 一位叫 Stephen Kleene 的数学家在 McCulloch 和
Pitts
早期工作的基础上,发表了一篇标题为“神经网事件的表示法”的论文,引入了正则表达式的概念。正则表达式就是用来描述他称为“正则集的代数”的表达式,因此采用“正则表达式”这个术语。
随后,发现可以将这一工作应用于使用 Ken Thompson 的计算搜索算法的一些早期研究,Ken Thompson 是 Unix
的主要发明人。正则表达式的第一个实用应用程序就是 Unix 中的 _qed _编辑器。
如他们所说,剩下的就是众所周知的历史了。从那时起直至现在正则表达式都是基于文本的编辑器和搜索工具中的一个重要部分。
3. 正则表达式定义
正则表达式(regular
expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。
- 列目录时, dir .txt或ls
.txt中的.txt就不是一个正则表达式,因为这里与正则式的*的含义是不同的。
正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
3.1 普通字符
由所有那些未显式指定为元字符的打印和非打印字符组成。这包括所有的大写和小写字母字符,所有数字,所有标点符号以及一些符号。
3.2 非打印字符
| 字符 | 含义 |
|---|---|
| \cx | 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。 |
| \f | 匹配一个换页符。等价于 \x0c 和 \cL。 |
| \n | 匹配一个换行符。等价于 \x0a 和 \cJ。 |
| \r | 匹配一个回车符。等价于 \x0d 和 \cM。 |
| \s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。 |
| \S | 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。 |
| \t | 匹配一个制表符。等价于 \x09 和 \cI。 |
| \v | 匹配一个垂直制表符。等价于 \x0b 和 \cK。 |
3.3 特殊字符
所谓特殊字符,就是一些有特殊含义的字符,如上面说的".txt"中的,简单的说就是表示任何字符串的意思。如果要查找文件名中有*的文件,则需要对*进行转义,即在其前加一个\。ls
*.txt。正则表达式有以下特殊字符。
| 特别字符 | 说明 |
|---|---|
| $ | 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符本身,请使用 \$。 |
| ( ) | 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)。 |
| * | 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \*。 td> |
| + | 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+。 |
| . | 匹配除换行符 \n之外的任何单字符。要匹配 .,请使用 \。 |
| [ | 标记一个中括号表达式的开始。要匹配 [,请使用 \[。 |
| ? | 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?。 |
| \ | 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\",而 '\(' 则匹配 "("。 |
| ^ | 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^。 |
| { | 标记限定符表达式的开始。要匹配 {,请使用 \{。 |
| | | 指明两项之间的一个选择。要匹配 |,请使用 \|。 |
3.4 限定符
限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。
*、+和?限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。
正则表达式的限定符有:
| 字符 | 描述 |
|---|---|
| * | 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。 |
| + | 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。 |
| ? | 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。 |
| {n} | n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。 |
| {n,} | n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 |
| {n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。 |
3.5 定位符
用来描述字符串或单词的边界,^和$分别指字符串的开始与结束,\b描述单词的前或后边界,\B表示非单词边界。不能对定位符使用限定符。
3.6 选择
用圆括号将所有选择项括起来,相邻的选择项之间用|分隔。但用圆括号会有一个副作用,是相关的匹配会被缓存,此时可用?:放在第一个选项前来消除这种副作用。
其中?:是非捕获元之一,还有两个非捕获元是?=和?!,这两个还有更多的含义,前者为正向预查,在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串,后者为负向预查,在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。
3.7 后向引用
对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中,所捕获的每个子匹配都按照在正则表达式模式中从左至右所遇到的内容存储。存储子匹配的缓冲区编号从
1 开始,连续编号直至最大 99 个子表达式。每个缓冲区都可以使用 '\n' 访问,其中 n 为一个标识特定缓冲区的一位或两位十进制数。
可以使用非捕获元字符 '?:', '?=', or '?!' 来忽略对相关匹配的保存。
4. 各种操作符的运算优先级
相同优先级的从左到右进行运算,不同优先级的运算先高后低。各种操作符的优先级从高到低如下:
| 操作符 | 描述 |
|---|---|
| \ | 转义符 |
| (), (?:), (?=), [] | 圆括号和方括号 |
| *, +, ?, {n}, {n,}, {n,m} | 限定符 |
| ^, $, \anymetacharacter | 位置和顺序 |
| | | “或”操作 |
5. 全部符号解释
| 字符 | 描述 |
|---|---|
| \ | 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("。 |
| ^ | 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 '\n' 或 '\r' 之后的位置。 |
| $ | 匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性,$ 也匹配 '\n' 或 '\r' 之前的位置。 |
| * | 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。 |
| + | 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo", 但不能匹配 "z"。+ 等价于 {1,}。 |
| ? | 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。 |
| {n} | n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。 |
| {n,} | n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 |
| {n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。 |
| ? | 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。 |
| . | 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用象 '[.\n]' 的模式。 |
| (pattern) | 匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,在VBScript 中使用 SubMatches 集合,在JScript 中则使用 $0…$9 属性。要匹配圆括号字符,请使用 '\(' 或 '\)'。 |
| (?:pattern) | 匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。 |
| (?=pattern) | 正向预查,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ,但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。 |
| (?!pattern) | 负向预查,在任何不匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始 |
| x|y | 匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。 |
| [xyz] | 字符集合。匹配所包含的任意一个字符。例如, '[abc]' 可以匹配 "plain" 中的 'a'。 |
| [^xyz] | 负值字符集合。匹配未包含的任意字符。例如, '[^abc]' 可以匹配 "plain" 中的'p'。 |
| [a-z] | 字符范围。匹配指定范围内的任意字符。例如,'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。 |
| [^a-z] | 负值字符范围。匹配任何不在指定范围内的任意字符。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。 |
| \b | 匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。 |
| \B | 匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。 |
| \cx | 匹配由 x 指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。 |
| \d | 匹配一个数字字符。等价于 [0-9]。 |
| \D | 匹配一个非数字字符。等价于 [^0-9]。 |
| \f | 匹配一个换页符。等价于 \x0c 和 \cL。 |
| \n | 匹配一个换行符。等价于 \x0a 和 \cJ。 |
| \r | 匹配一个回车符。等价于 \x0d 和 \cM。 |
| \s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。 |
| \S | 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。 |
| \t | 匹配一个制表符。等价于 \x09 和 \cI。 |
| \v | 匹配一个垂直制表符。等价于 \x0b 和 \cK。 |
| \w | 匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。 |
| \W | 匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。 |
| \xn | 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,'\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。. |
| \num | 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)\1' 匹配两个连续的相同字符。 |
| \n | 标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个 八进制转义值。 |
| \nm | 标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。 |
| \nml | 如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。 |
| \un | 匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \u00A9 匹配版权符号 (?)。 |
6. 部分例子
| 正则表达式 | 说明 |
|---|---|
| /\b([a-z]+) \1\b/gi | 一个单词连续出现的位置 |
| /(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)/ | 将一个URL解析为协议、域、端口及相对路径 |
| /^(?:Chapter|Section) [1-9][0-9]{0,1}$/ | 定位章节的位置 |
| /[-a-z]/ | A至z共26个字母再加一个-号。 |
| /ter\b/ | 可匹配chapter,而不能terminal |
| /\Bapt/ | 可匹配chapter,而不能aptitude |
| /Windows(?=95 |98 |NT )/ | 可匹配Windows95或Windows98或WindowsNT,当找到一个匹配后,从Windows后面开始进行下一次的检索匹配。 |
7. 正则表达式匹配规则
一切从最基本的开始。模式,是正规表达式最基本的元素,它们是一组描述字符串特征的字符。模式可以很简单,由普通的字符串组成,也可以非常复杂,往往用特殊的字符表示一个范围内的字符、重复出现,或表示上下文。例如:
^once
这个模式包含一个特殊的字符^,表示该模式只匹配那些以once开头的字符串。例如该模式与字符串"once upon a time"匹配,与"There once
was a man from NewYork"不匹配。正如如^符号表示开头一样,$符号用来匹配那些以给定模式结尾的字符串。
bucket$
这个模式与"Who kept all of this cash in a
bucket"匹配,与"buckets"不匹配。字符^和$同时使用时,表示精确匹配(字符串与模式一样)。例如:
^bucket$
只匹配字符串"bucket"。如果一个模式不包括^和$,那么它与任何包含该模式的字符串匹配。例如:模式
once
与字符串
There once was a man from NewYork
Who kept all of his cash in a bucket.
是匹配的。
在该模式中的字母(o-n-c-e)是字面的字符,也就是说,他们表示该字母本身,数字也是一样的。其他一些稍微复杂的字符,如标点符号和白字符(空格、制表符等),要用到转义序列。所有的转义序列都用反斜杠()打头。制表符的转义序列是:\t。所以如果我们要检测一个字符串是否以制表符开头,可以用这个模式:
^\t
类似的,用\n表示“新行”,\r表示回车。其他的特殊符号,可以用在前面加上反斜杠,如反斜杠本身用\表示,句号.用.表示,以此类推。
在INTERNET的程序中,正规表达式通常用来验证用户的输入。当用户提交一个FORM以后,要判断输入的电话号码、地址、EMAIL地址、信用卡号码等是否有效,用普通的基于字面的字符是不够的。
所以要用一种更自由的描述我们要的模式的办法,它就是字符簇。要建立一个表示所有元音字符的字符簇,就把所有的元音字符放在一个方括号里:
[AaEeIiOoUu]
这个模式与任何元音字符匹配,但只能表示一个字符。用连字号可以表示一个字符的范围,如:
[a-z] //匹配所有的小写字母
[A-Z] //匹配所有的大写字母
[a-zA-Z] //匹配所有的字母
[0-9] //匹配所有的数字[0-9.-] //匹配所有的数字,句号和减号
[ \f\r\t\n] //匹配所有的白字符
同样的,这些也只表示一个字符,这是一个非常重要的。如果要匹配一个由一个小写字母和一位数字组成的字符串,比如"z2"、"t6"或"g7",但不是"ab2"、"r2d3"
或"b52"的话,用这个模式:
[1][0-9]$
尽管[a-z]代表26个字母的范围,但在这里它只能与第一个字符是小写字母的字符串匹配。
前面曾经提到表示字符串的开头,但它还有另外一个含义。当在一组方括号里使用是,它表示“非”或“排除”的意思,常常用来剔除某个字符。还用前面的例子,我们要求第一个字符不能是数字:
[0-9][0-9]$
这个模式与"&5"、"g7"及"-2"是匹配的,但与"12"、"66"是不匹配的。下面是几个排除特定字符的例子:
[^a-z] //除了小写字母以外的所有字符
[^\/^] //除了()(/)(^)之外的所有字符
[^"'] //除了双引号(")和单引号(')之外的所有字符
特殊字符"."
(点,句号)在正规表达式中用来表示除了“新行”之外的所有字符。所以模式"^.5$"与任何两个字符的、以数字5结尾和以其他非“新行”字符开头的字符串匹配。模式"."可以匹配任何字符串,除了空串和只包括一个“新行”的字符串。
PHP的正规表达式有一些内置的通用字符簇,列表如下:
字符簇 含义
[[:alpha:]] 任何字母
[[:digit:]] 任何数字
[[:alnum:]] 任何字母和数字[[:space:]] 任何白字符
[[:upper:]] 任何大写字母
[[:lower:]] 任何小写字母
[[:punct:]] 任何标点符号[[:xdigit:]] 任何16进制的数字,相当于[0-9a-fA-F]
到现在为止,你已经知道如何去匹配一个字母或数字,但更多的情况下,可能要匹配一个单词或一组数字。一个单词有若干个字母组成,一组数字有若干个单数组成。跟在字符或字符簇后面的花括号({})用来确定前面的内容的重复出现的次数。
字符簇 含义
[2]$ 所有的字母和下划线
[3]{3}$ 所有的3个字母的单词
^a$ 字母a^a{4}$ aaaa
^a{2,4}$ aa,aaa或aaaa
^a{1,3}$ a,aa或aaa
^a{2,}$ 包含多于两个a的字符串^a{2,} 如:aardvark和aaab,但apple不行
a{2,} 如:baad和aaa,但Nantucket不行
\t{2} 两个制表符.{2} 所有的两个字符
这些例子描述了花括号的三种不同的用法。一个数字,{x}的意思是“前面的字符或字符簇只出现x次”;一个数字加逗号,{x,}的意思是“前面的内容出现x或更多的次数”;两个用逗号分隔的数字,{x,y}表示“前面的内容至少出现x次,但不超过y次”。我们可以把模式扩展到更多的单词或数字:
[4]{1,}$ //所有包含一个以上的字母、数字或下划线的字符串
[5]{1,}$ //所有的正数
^-{0,1}[0-9]{1,}$ //所有的整数^-{0,1}[0-9]{0,}.{0,1}[0-9]{0,}$ //所有的小数
最后一个例子不太好理解,是吗?这么看吧:与所有以一个可选的负号(-{0,1})开头(^)、跟着0个或更多的数字([0-9]{0,})、和一个可选的小数点(.{0,1})再跟上0个或多个数字([0-9]{0,}),并且没有其他任何东西($)。下面你将知道能够使用的更为简单的方法。
特殊字符"?"与{0,1}是相等的,它们都代表着:“0个或1个前面的内容”或“前面的内容是可选的”。所以刚才的例子可以简化为:
^-?[0-9]{0,}.?[0-9]{0,}$
特殊字符"*"与{0,}是相等的,它们都代表着“0个或多个前面的内容”。最后,字符"+"与
{1,}是相等的,表示“1个或多个前面的内容”,所以上面的4个例子可以写成:
[6]+$ //所有包含一个以上的字母、数字或下划线的字符串
[7]+$ //所有的正数
^-?[0-9]+$ //所有的整数^-?[0-9].?[0-9]$ //所有的小数
当然这并不能从技术上降低正规表达式的复杂性,但可以使它们更容易阅读。
参考文献:
微软MSDN上的例子(英文):
Scanning for HREFS
input string and prints out all the href="..." values and
their locations in the string.
Changing Date Formats
of the form mm/dd/yy with dates of the form dd-mm-yy.
Extracting URL Information
protocol and port number from a string containing a URL. For
example, "http://www.contoso.com:8080/letters/readme.html"
returns "http:8080".
Cleaning an Input String
non-alphanumeric characters from a string.
Confirming Valid E-Mail Format
verify that a string is in valid e-mail format.
色彩管理教程
把我这两天做的一些色彩管理流程的实验写给大家,希望对大家更好的理解色彩管理的概念和流程有所帮助,这里我们不谈空洞的理论只做实战操作!
先介绍一下我实验用的工具和软件:色彩管理的工具软件:profilemaker5,此软件用来测量和生成设备(扫描仪,数码相机,显示器,打印机等等)的ICC色彩特性文件, 并可做一些颜色的比较和特性文件的编辑;标准颜色色靶:格灵达Digital ColorChecker SG;色彩管理系统软件:PHOTOSHOP,注意我这里没有用各种流行的色彩管理软件如:EFI,GMG等等,因为我希望大家能真正的从色彩管理的基本着手,更深入地了解色彩管理中的一些基本的概念,并正确用好Photoshop的强大色彩管理功能;测量仪器:分光光度计:EYE ONE;显示器:EIZO平民化的L768,没用专业的CG220是想让大家不要太迷信设备,只要不是偏离标准太离谱的设备,我们都可以让色彩管理很好地工作;打印机:EPSON A3幅面的R1800,大幅面的9800,共两台;打印机驱动:EPSON原装驱动。
实验目的:以PHOTOSHOP色彩管理软件为中心,做到真实色彩准确采集和还原并做到输入设备,显示设备及各种输出(打印设备)的色彩和谐统一,实现色彩管理的真正意义和实现的流程
色彩管理第一步:怎么样得到真实的或接近真实的颜色?
一:建立图像采集设备(扫描仪或数码相机)的特性文件
这个例子中,我用了格灵达公司的一个标准色靶Digital ColorChecker SG来做说明。
该色靶原来是用来做数码相机的特性文件的,因为数码相机受环境光影响较大,所以我用一台平台扫描仪做输入设备采集该色靶上的标准色。
现在我们先把扫描仪设置都回到默认状态,并关闭扫描仪的颜色部分,这里我们不管你的扫描仪支不支持色彩管理,再这个实验中一定都把它们关闭了,我们都让PHOTOSHOP来完成色彩管理工作,另外,做ICC时也需要得到扫描仪的最原始数据!
扫描Digital ColorChecker SG色靶,并存成一个TIFF文件:11.58.tif,再打开profilemaker5用扫描仪的模块来生成该扫描仪的特性文件。
二:转换得到真实的颜色:
再在PHOTOSHOP中打开扫描得到的11.58.tif,点菜单“编辑”里“指定为配置文件”,这一步就是告诉系统此图的来源是什么空间的?既是色彩管理系统中的“源特性文件”或叫“输入特性文件”是什么。
接着我们需要把图片再转换一次,为什么呢?因为我们的目的是想通过色彩管理系统采集到真实的颜色!所以现在我们把图的空间转换到LAB的色空间中,看看得到的色块颜色的Lab颜色和此Digital ColorChecker SG色靶的标准颜色是否一致?
源空间就是扫描仪的特性文件sgsaomiao 4.icc,我们把它转换到了Lab空间,意图一定是绝对比色,因为Lab空间要比任何空间都大,转换是不会有损失的,转换完成后我们把它保存一下。
其实完成这步后,只要你的显示器校得标准,那么系统同时也完成此图在显示器上真实的显示了你可以对比一下显示器和实物颜色的区别!很大吗?相信一定是差别很小的。这个差别来自于两个方面:1,实物中的颜色空间超过了扫描仪的色彩空间范围所以产生了色差值(我们可以通过PM5来分析实际的色差)2,显示器的色空间小于扫描仪的色空间,又产生了一定的色差值。
下面我们分析一下扫描仪和实物颜色之间的色差值:我们打开软件PM5里的MeasureTool工具并点菜单里的“比较”,于是我们在3的区域里看见了两个图之间的色差值:平均delta E=0.98
现在我们可以说我们完成了色彩管理的第一步,得到真实的(或接近真实的)色彩。
色彩管理第二步:正确显示我们的颜色
一:显示器的校正并生成显示器的ICC,
我讲几个显示器的校准要点:1,定义色温:校准前请明确你的观察条件既你的观察色稿的光源标准,让显示器校准后的色温尽可能的接近你的观察反射稿及透射稿的色温,最好有标准光源,这样就让你的显示器色温和你的标准光源一致。
2,定义准确的显示器亮度:还是要让你的显示器的亮度和你的标准观察光源一致!其实Eye One都有这些环境光的测量功能了。
3,定义Gamma值到2.2,建议苹果电脑的朋友也定义到2.2这个值。
二:校准生成完后显示器一个简单的效验方法:
在photoshop中新建几个已知的实物颜色Lab值的色块,当然这些色块也要用Lab模式建立,然后观察实物颜色和显示器中的色块颜色,校准好的显示器应该显示的颜色和实物颜色一致的。
三:现在我们再在PHOTOSHOP中打开前面保存下来的Lab色空间的扫描图
前面我们也说了只要我们的显示器校准了,那么现在我们再来看这张图就一定和你在标准光源下观看的实物色靶颜色一致了!我把它们的对比用相机拍下来大家可以做个比较,虽然相机差点,但因为在同一条件下拍摄应该还有点说明价值吧?
色彩管理第三步(重点的一步):正确输出我们的颜色
毫无疑问,我们最终的目的是要输出的,这个输出我们先用打印机这个最常见的输出工具,现在我们打印就不是想以前那么随心了,因为我们现在再讲色彩管理,所以我们现在要的输出是建立在色彩管理这个概念上的输出。
1, 标准化你的打印机(不好意思又讲概念的东西)其实说简单一点,就是检查一下墨头有没有堵住!呵呵,然后用点标准纸张!为了更好的说明问题,我在R1800和9800两台打印机上用了两种不同的纸张,注意都不是EPSON的原装纸!r1800我用了FRUBO这个牌子的单张A3纸,9800上我用了EP517(大家都知道的台湾纸)。
2, 打印标准色稿
还是为了说明问题,体现不同输出设备的色彩匹配,我对R1800建立是RGB的特性文件,把它当一台RGB打印机,对9800我建立CMYK的特性文件,把它当CMYK的打印机。首先来建立R1800的ICC:1,在Photoshop中打开TC2.83色靶(PM5带的,TC2.83 RGB I1.tif),并选择不对它进行色彩管理,然后打印,这里我要强调一下,首先我们在PHOTOSHOP中把PHOTOSHOP的打印色彩管理关闭:点菜单“文件”下的“打印预览”关闭色彩管理看下图中红色框内设置,接着按打印键,进入打印机的打印设置窗口,再把打印机自身的色彩管理功能也关闭!
第1步选择打印机(R1800),第2步,点打印机属性;第3步,选择纸张类型,这步主要就是完成纸张的初步线性,因为EPSON的打印驱动没有开放纸张的线性功能,我们只能选择一种和你使用的纸张类型接近的纸张线性来做此ICC特性文件,第4步选择ICM色彩管理选项,第5步关闭色彩管理
上述设完后就可以直接按打印进行输出了!
3, 生成ICC:
接下来就是对此打印样张用PM5连上分光光度仪进行测量输入实际颜色值并生成R1800打印机的ICC特性文件了,我把生成好的ICC命名为:epson1800-frubo-max..icc(RGB的)并放入系统文件夹内。同样,我们再用上面的步骤和方法用EPSON9800打印CMYK的色靶文件TC3.5 CMYK i1.tif,9800的打印机设置和1800大同小异,的按1800方法设置就可,不再复述。
我把9800下生成的ICC命名为:EPSON9800ep517-2880-max.icc(CMYK的)同样放入系统文件夹
有了上述的两个打印机的ICC我们接下来就讲怎么样把得到的真实正确的色彩转换到打印机的色彩空间中输出。
4,转换色空间,
这个转换有很多种方法,不同的打印软件都有这个过程,只不过有的过程需要你手动拉来完成,象PHOTOSHOP中,也有的软件可以自动完成,象EFI,GMG,及其它一些打印软件,我们这里讨论的是PHOTOSHOP中手动来转换这个过程,可以让大家对它有更深的印象:
一个很重要的原则:就是色彩管理功能不能嵌套使用,就是说在整个流程中,色彩管理的介入只能介入一次,不能重复使用,就拿现在我们要把扫描得到的图片输出到打印机一样,你在PHOTOSHOP中做了转换到打印机色空间这一步,那么就不能使用PHOTOSHOP的另一个转换的地方:PHOTOSHOP的打印色彩管理功能(在打印预览的菜单里,前面大家已经看到过了)也不能用打印机的(EPSON打印机驱动)色彩管理(转换)功能,这就是为什么我们输出标准稿时要把两个地方都关闭掉好了,废话少说,我们继续今天的重点:我们再一次打开扫描得到Digital ColorChecker SG色靶图11.58.tif,这个图内我们已经指定了它的源色彩空间sgsaomiao 4.icc,现在我们打开它并让它工作在指定的色空间sgsaomiao 4.icc中,然后点“编辑”菜单下的“转换到配置文件”
先指定为CMYK打印机空间EPSON9800ep517-2880-max.icc。
1区域检查是否是我们的扫描仪空间ICC文件?2区域设定到转换的目标空间,3区域中你选择颜色变化最小的转换意图,同样把图再转换到RGB打印机的色空间:上图2的区域中选epson1800-frubo-max..icc,转换后保存成11.58.RGB.tif。
完成后我们来做个对比:在PHOTOSHOP中同时打开这两个图片,并打开最前面我们转换到Lab空间的那张扫描图来做个对比,当然对比前我得设置一下我们PHOTOSHOP的色彩工作空间,让RGB, CMYK的空间都工作在打印机的色空间中,此时才能让PHOTOSHOP真正模拟输出后的效果:点“编辑”菜单中的“颜色设置”:1区域中放RGB打印机特性,2区域放CMYK打印机特性。
转换完后我们进行最后一步,打印。
我们把转换好的RGB的图打印到RGB的打印机EPSON的R1800,转换好的CMYK打印到CMYK打印机EPSON9800,打印方法和打标准色靶时一样!所有打印机设置也和输出标准色靶时一致!一定要关闭PHOTOSHOP的打印颜色管理和关闭EPSON打印机的颜色管理!
现在整个实验过程告一段落,结果不知大家是否满意?重要的是能否给大家一个好的色彩管理流程的引导和启发?
要说明的几点:1,整个过程我没有对ICC的特性文件做过编辑,如要更好的结果,可以进一部测量打印稿的实际lab值,再在PM5里进行对比,找到色差超过我们要求的色块,对ICC文件进行编辑。
2,为了简化实验,我用了一些色块较少的标准色靶,比如要真正做准扫描仪可以用IT8的标准透射稿和标准反射稿分别做扫描仪透射稿及反射稿的ICC特性文件,做打印机则最好要用TC9.18(RGB),IT8.73(CMYK)的标准色稿图,这样可以得到更高精度的色彩采集和还原。
3,实际应用中,在打印输出转换的过程中,大家并不需要象我这样手工来转换色空间的,而是应该l利用PHOTOSHOP中提供的打印色彩管理来进行打印过程中转换,原图就不用转换了,只要指定好原图采集设备的色空间特性文件(既指定源特性文件或叫输入特性文件)即可,然后在菜单"文件"下选择"打印预览"选相在打印预览的窗口中再设定打印机的特性文件。
1区域检查源空间特性文件是否已正确指定
2区域中选择让PHOTOSHOP管理颜色
3区域中指定打印机的特性文件,即你要输出的色空间
4区域选择转换意图
如果用此方法来做印刷打样的话:可这样来设定:在PHOTOSHOP中先指定图片的源空间为印刷机的ICC特性文件,然后在上述的设置中,其余设置不变,转换意图选择绝对比色,这样就会模拟底色了。
Crash.1996|欲望号快车(港译名)
片子在日间户外影调的处理上有严重的至上主义的痕迹,看起来有未来感和冷漠感,全片基本没有对角色交待,角色之间所谓的感情互动、交流也很少。所有角色基本构成了一个小圈子,两两之间都有性的接触,都可以通过接触机器获得生理上的快感,对于旧的撞坏的车的迷恋似乎可以和怀旧挂钩,按照这个思路说下去的话,这个世界确实挺变态的。