类 Regexp

正则表达式（也称为regexp）是一种匹配模式（也简称为模式）。

正则表达式的常见表示法是使用斜杠字符括起来

/foo/

正则表达式可以应用于目标字符串；字符串中匹配模式的部分（如果有）称为匹配，并且可以说匹配

re = /red/
re.match?('redirect') # => true   # Match at beginning of target.
re.match?('bored')    # => true   # Match at end of target.
re.match?('credit')   # => true   # Match within target.
re.match?('foo')      # => false  # No match.

Regexp 的用途¶ ↑

正则表达式可以用于

根据给定的模式提取子字符串

re = /foo/              # => /foo/
re.match('food')        # => #<MatchData "foo">
re.match('good')        # => nil

请参阅方法 match和运算符 =~部分。

确定字符串是否匹配给定的模式
```
re.match?('food') # => true
re.match?('good') # => false
```
请参阅方法 match?部分。
作为其他类和模块中某些方法的调用的参数；大多数此类方法接受一个参数，该参数可以是字符串或（功能更强大的）正则表达式。

请参阅Regexp 方法。

Regexp 对象¶ ↑

正则表达式对象具有

源；请参阅源。
多个模式；请参阅模式。
超时；请参阅超时。
编码；请参阅编码。

创建 Regexp¶ ↑

可以使用以下方式创建正则表达式

使用斜杠字符的正则表达式字面量（请参阅正则表达式字面量）
```
# This is a very common usage.
/foo/ # => /foo/
```

%r正则表达式字面量（请参阅%r：正则表达式字面量）

# Same delimiter character at beginning and end;
# useful for avoiding escaping characters
%r/name\/value pair/ # => /name\/value pair/
%r:name/value pair:  # => /name\/value pair/
%r|name/value pair|  # => /name\/value pair/

# Certain "paired" characters can be delimiters.
%r[foo] # => /foo/
%r{foo} # => /foo/
%r(foo) # => /foo/
%r<foo> # => /foo/

方法 Regexp.new。

方法 `match`¶ ↑

如果找到匹配项，则方法Regexp#match，String#match和Symbol#match中的每个方法都返回MatchData对象，否则返回nil；每个方法还设置了全局变量

'food'.match(/foo/) # => #<MatchData "foo">
'food'.match(/bar/) # => nil

运算符 `=~`¶ ↑

如果找到匹配项，则运算符Regexp#=~，String#=~和Symbol#=~中的每个运算符都返回一个整数偏移量，否则返回nil；每个方法还设置了全局变量

/bar/ =~ 'foo bar' # => 4
'foo bar' =~ /bar/ # => 4
/baz/ =~ 'foo bar' # => nil

方法 `match?`¶ ↑

如果找到匹配项，则方法Regexp#match?，String#match?和Symbol#match?中的每个方法都返回true，否则返回false；没有一个设置全局变量

'food'.match?(/foo/) # => true
'food'.match?(/bar/) # => false

全局变量¶ ↑

某些面向正则表达式的方法会为全局变量赋值

match：请参阅方法 match。
=~：请参阅运算符 =~。

受影响的全局变量是

$~：返回MatchData对象或nil。
$&：返回字符串中匹配的部分，或nil。
$`：返回字符串中匹配项左侧的部分，或nil。
$'：返回字符串中匹配项右侧的部分，或nil。
$+：返回最后匹配的组，或nil。
$1，$2等等：返回第一个、第二个等匹配的组，或nil。请注意，$0完全不同；它返回当前正在执行的程序的名称。

示例

# Matched string, but no matched groups.
'foo bar bar baz'.match('bar')
$~ # => #<MatchData "bar">
$& # => "bar"
$` # => "foo "
$' # => " bar baz"
$+ # => nil
$1 # => nil

# Matched groups.
/s(\w{2}).*(c)/.match('haystack')
$~ # => #<MatchData "stac" 1:"ta" 2:"c">
$& # => "stac"
$` # => "hay"
$' # => "k"
$+ # => "c"
$1 # => "ta"
$2 # => "c"
$3 # => nil

# No match.
'foo'.match('bar')
$~ # => nil
$& # => nil
$` # => nil
$' # => nil
$+ # => nil
$1 # => nil

请注意，Regexp#match?，String#match?和Symbol#match?不设置全局变量。

源¶ ↑

如上所示，最简单的正则表达式使用字面表达式作为其源

re = /foo/              # => /foo/
re.match('food')        # => #<MatchData "foo">
re.match('good')        # => nil

可用的丰富子表达式集合赋予正则表达式强大的功能和灵活性

特殊字符¶ ↑

正则表达式的特殊字符，称为元字符，在某些上下文中具有特殊含义；根据上下文，这些有时是元字符

. ? - + * ^ \ | $ ( ) [ ] { }

要按字面意思匹配元字符，请使用反斜杠转义

# Matches one or more 'o' characters.
/o+/.match('foo')  # => #<MatchData "oo">
# Would match 'o+'.
/o\+/.match('foo') # => nil

要按字面意思匹配反斜杠，请使用反斜杠转义

/\./.match('\.')  # => #<MatchData ".">
/\\./.match('\.') # => #<MatchData "\\.">

Method Regexp.escape返回转义后的字符串

Regexp.escape('.?-+*^\|$()[]{}')
# => "\\.\\?\\-\\+\\*\\^\\\\\\|\\$\\(\\)\\[\\]\\{\\}"

源字面量¶ ↑

源字面量在很大程度上类似于双引号字符串；请参阅双引号字符串字面量。

特别是，源字面量可以包含插值表达式

s = 'foo'         # => "foo"
/#{s}/            # => /foo/
/#{s.capitalize}/ # => /Foo/
/#{2 + 2}/        # => /4/

普通字符串字面量和源字面量之间存在差异；请参阅速记字符类。

普通字符串字面量中的\s等效于空格字符；在源字面量中，它是匹配空白字符的速记形式。
在普通的字符串字面量中，这些是（不必要地）转义的字符；在源字面量中，它们是各种匹配字符的速记形式
```
\w \W \d \D \h \H \S \R
```

字符类¶ ↑

字符类用方括号分隔；它指定在目标字符串中的给定点匹配某些字符

# This character class will match any vowel.
re = /B[aeiou]rd/
re.match('Bird') # => #<MatchData "Bird">
re.match('Bard') # => #<MatchData "Bard">
re.match('Byrd') # => nil

字符类可以包含连字符来指定字符范围

# These regexps have the same effect.
/[abcdef]/.match('foo') # => #<MatchData "f">
/[a-f]/.match('foo')    # => #<MatchData "f">
/[a-cd-f]/.match('foo') # => #<MatchData "f">

当字符类的第一个字符是插入符号（^）时，该类的含义会反转：它匹配除指定字符以外的任何字符。

/[^a-eg-z]/.match('f') # => #<MatchData "f">

字符类可以包含另一个字符类。它本身没有用，因为[a-z[0-9]]描述的集合与[a-z0-9]相同。

但是，字符类也支持&&运算符，该运算符对其参数执行集合交集运算。两者可以组合如下

/[a-w&&[^c-g]z]/ # ([a-w] AND ([^c-g] OR z))

这等效于

/[abh-w]/

速记字符类¶ ↑

以下每个元字符都是字符类的速记形式

/./：匹配除换行符以外的任何字符

/./.match('foo') # => #<MatchData "f">
/./.match("\n")  # => nil

/./m：匹配包括换行符在内的任何字符；请参阅多行模式
```
/./m.match("\n") # => #<MatchData "\n">
```

/\w/：匹配单词字符：等效于[a-zA-Z0-9_]

/\w/.match(' foo') # => #<MatchData "f">
/\w/.match(' _')   # => #<MatchData "_">
/\w/.match(' ')    # => nil

/\W/：匹配非单词字符：等效于[^a-zA-Z0-9_]

/\W/.match(' ') # => #<MatchData " ">
/\W/.match('_') # => nil

/\d/：匹配数字字符：等效于[0-9]

/\d/.match('THX1138') # => #<MatchData "1">
/\d/.match('foo')     # => nil

/\D/：匹配非数字字符：等效于[^0-9]

/\D/.match('123Jump!') # => #<MatchData "J">
/\D/.match('123')      # => nil

/\h/：匹配十六进制数字字符：等效于[0-9a-fA-F]

/\h/.match('xyz fedcba9876543210') # => #<MatchData "f">
/\h/.match('xyz')                  # => nil

/\H/：匹配非十六进制数字字符：等效于[^0-9a-fA-F]

/\H/.match('fedcba9876543210xyz') # => #<MatchData "x">
/\H/.match('fedcba9876543210')    # => nil

/\s/：匹配空白字符：等效于/[ \t\r\n\f\v]/

/\s/.match('foo bar') # => #<MatchData " ">
/\s/.match('foo')     # => nil

/\S/：匹配非空白字符：等效于/[^ \t\r\n\f\v]/

/\S/.match(" \t\r\n\f\v foo") # => #<MatchData "f">
/\S/.match(" \t\r\n\f\v")     # => nil

/\R/：匹配换行符，与平台无关

/\R/.match("\r")     # => #<MatchData "\r">     # Carriage return (CR)
/\R/.match("\n")     # => #<MatchData "\n">     # Newline (LF)
/\R/.match("\f")     # => #<MatchData "\f">     # Formfeed (FF)
/\R/.match("\v")     # => #<MatchData "\v">     # Vertical tab (VT)
/\R/.match("\r\n")   # => #<MatchData "\r\n">   # CRLF
/\R/.match("\u0085") # => #<MatchData "\u0085"> # Next line (NEL)
/\R/.match("\u2028") # => #<MatchData "\u2028"> # Line separator (LSEP)
/\R/.match("\u2029") # => #<MatchData "\u2029"> # Paragraph separator (PSEP)

锚点¶ ↑

锚点是一个元序列，它匹配目标字符串中字符之间的零宽度位置。

对于没有锚点的子表达式，匹配可以从目标字符串中的任何位置开始

/real/.match('surrealist') # => #<MatchData "real">

对于具有锚点的子表达式，匹配必须从匹配的锚点开始。

边界锚点¶ ↑

以下每个锚点都匹配一个边界

^：匹配行的开头

/^bar/.match("foo\nbar") # => #<MatchData "bar">
/^ar/.match("foo\nbar")  # => nil

$：匹配行的结尾

/bar$/.match("foo\nbar") # => #<MatchData "bar">
/ba$/.match("foo\nbar")  # => nil

\A：匹配字符串的开头

/\Afoo/.match('foo bar')  # => #<MatchData "foo">
/\Afoo/.match(' foo bar') # => nil

\Z：匹配字符串的结尾；如果字符串以单个换行符结尾，则它匹配结尾换行符之前

/foo\Z/.match('bar foo')     # => #<MatchData "foo">
/foo\Z/.match('foo bar')     # => nil
/foo\Z/.match("bar foo\n")   # => #<MatchData "foo">
/foo\Z/.match("bar foo\n\n") # => nil

\z：匹配字符串的结尾

/foo\z/.match('bar foo')   # => #<MatchData "foo">
/foo\z/.match('foo bar')   # => nil
/foo\z/.match("bar foo\n") # => nil

\b：当不在方括号内时，匹配单词边界；当在方括号内时，匹配退格符（"0x08"）
```
/foo\b/.match('foo bar') # => #<MatchData "foo">
/foo\b/.match('foobar')  # => nil
```

\B：匹配非单词边界

/foo\B/.match('foobar')  # => #<MatchData "foo">
/foo\B/.match('foo bar') # => nil

\G：匹配第一个匹配位置

在String#gsub和String#scan等方法中，它在每次迭代时都会更改。它最初匹配主题的开头，并在随后的每次迭代中匹配上次匹配结束的位置。
```
"    a b c".gsub(/ /, '_')   # => "____a_b_c"
"    a b c".gsub(/\G /, '_') # => "____a b c"
```
在Regexp#match和String#match等采用可选偏移量的方法中，它匹配搜索开始的位置。
```
"hello, world".match(/,/, 3)   # => #<MatchData ",">
"hello, world".match(/\G,/, 3) # => nil
```

环视锚点¶ ↑

先行锚点

(?=pat)：正向先行断言：确保以下字符匹配pat，但不将这些字符包括在匹配的子字符串中。
(?!pat)：负向先行断言：确保以下字符不匹配pat，但不将这些字符包括在匹配的子字符串中。

后行锚点

(?<=pat)：正向后行断言：确保前面的字符匹配pat，但不将这些字符包括在匹配的子字符串中。
(?pat)：负向后行断言：确保前面的字符不匹配pat，但不将这些字符包括在匹配的子字符串中。

下面的模式使用正向先行和正向后行来匹配 … 标签中出现的文本，而不将标签包括在匹配中

/(?<=<b>)\w+(?=<\/b>)/.match("Fortune favors the <b>bold</b>.")
# => #<MatchData "bold">

匹配重置锚点¶ ↑

\K：匹配重置：正则表达式中\K前面的匹配内容将从结果中排除。例如，以下两个正则表达式几乎等效
```
/ab\Kc/.match('abc')    # => #<MatchData "c">
/(?<=ab)c/.match('abc') # => #<MatchData "c">
```
这些匹配相同的字符串，并且$&等于'c'，而匹配位置不同。

以下两个正则表达式也一样
```
/(a)\K(b)\Kc/
/(?<=(?<=(a))(b))c/
```

选择符¶ ↑

竖线元字符 (|) 可以在括号内使用，以表示选择：两个或多个子表达式中的任何一个都可以匹配目标字符串。

两种选择

re = /(a|b)/
re.match('foo') # => nil
re.match('bar') # => #<MatchData "b" 1:"b">

四种选择

re = /(a|b|c|d)/
re.match('shazam') # => #<MatchData "a" 1:"a">
re.match('cold')   # => #<MatchData "c" 1:"c">

每个选择都是一个子表达式，并且可以由其他子表达式组成

re = /([a-c]|[x-z])/
re.match('bar') # => #<MatchData "b" 1:"b">
re.match('ooz') # => #<MatchData "z" 1:"z">

方法 Regexp.union 提供了一种方便的方式来构造具有选择符的正则表达式。

量词¶ ↑

一个简单的正则表达式匹配一个字符

/\w/.match('Hello')  # => #<MatchData "H">

添加的量词指定需要或允许的匹配次数

* - 匹配零次或多次

/\w*/.match('')
# => #<MatchData "">
/\w*/.match('x')
# => #<MatchData "x">
/\w*/.match('xyz')
# => #<MatchData "yz">

+ - 匹配一次或多次

/\w+/.match('')    # => nil
/\w+/.match('x')   # => #<MatchData "x">
/\w+/.match('xyz') # => #<MatchData "xyz">

? - 匹配零次或一次

/\w?/.match('')    # => #<MatchData "">
/\w?/.match('x')   # => #<MatchData "x">
/\w?/.match('xyz') # => #<MatchData "x">

{n} - 恰好匹配 n 次

/\w{2}/.match('')    # => nil
/\w{2}/.match('x')   # => nil
/\w{2}/.match('xyz') # => #<MatchData "xy">

{min,} - 匹配至少 min 次

/\w{2,}/.match('')    # => nil
/\w{2,}/.match('x')   # => nil
/\w{2,}/.match('xy')  # => #<MatchData "xy">
/\w{2,}/.match('xyz') # => #<MatchData "xyz">

{,max} - 匹配最多 max 次

/\w{,2}/.match('')    # => #<MatchData "">
/\w{,2}/.match('x')   # => #<MatchData "x">
/\w{,2}/.match('xyz') # => #<MatchData "xy">

{min,max} - 匹配至少 min 次，最多 max 次

/\w{1,2}/.match('')    # => nil
/\w{1,2}/.match('x')   # => #<MatchData "x">
/\w{1,2}/.match('xyz') # => #<MatchData "xy">

贪婪、懒惰或占有匹配¶ ↑

量词匹配可以是贪婪的、懒惰的或占有的

在贪婪匹配中，会匹配尽可能多的出现次数，同时仍然允许整体匹配成功。贪婪量词：*、+、?、{min, max}及其变体。
在懒惰匹配中，会匹配最少的出现次数。懒惰量词：*?、+?、??、{min, max}?及其变体。
在占有匹配中，一旦找到匹配项，就不会回溯；即使这会危及整体匹配，也会保留该匹配项。占有量词：*+、++、?+。请注意，{min, max}及其变体不支持占有匹配。

关于贪婪和懒惰匹配，请参阅选择最小或最大重复。
关于占有匹配，请参阅消除不必要的回溯。

组和捕获¶ ↑

一个简单的正则表达式（最多）有一个匹配项

re = /\d\d\d\d-\d\d-\d\d/
re.match('1943-02-04')      # => #<MatchData "1943-02-04">
re.match('1943-02-04').size # => 1
re.match('foo')             # => nil

添加一个或多个括号对，(子表达式)，定义组，这可能会导致多个匹配的子字符串，称为捕获

re = /(\d\d\d\d)-(\d\d)-(\d\d)/
re.match('1943-02-04')      # => #<MatchData "1943-02-04" 1:"1943" 2:"02" 3:"04">
re.match('1943-02-04').size # => 4

第一个捕获是整个匹配的字符串；其他捕获是来自组的匹配子字符串。

一个组可以有一个量词

re = /July 4(th)?/
re.match('July 4')   # => #<MatchData "July 4" 1:nil>
re.match('July 4th') # => #<MatchData "July 4th" 1:"th">

re = /(foo)*/
re.match('')       # => #<MatchData "" 1:nil>
re.match('foo')    # => #<MatchData "foo" 1:"foo">
re.match('foofoo') # => #<MatchData "foofoo" 1:"foo">

re = /(foo)+/
re.match('')       # => nil
re.match('foo')    # => #<MatchData "foo" 1:"foo">
re.match('foofoo') # => #<MatchData "foofoo" 1:"foo">

返回的 MatchData 对象提供对匹配子字符串的访问

re = /(\d\d\d\d)-(\d\d)-(\d\d)/
md = re.match('1943-02-04')
# => #<MatchData "1943-02-04" 1:"1943" 2:"02" 3:"04">
md[0] # => "1943-02-04"
md[1] # => "1943"
md[2] # => "02"
md[3] # => "04"

非捕获组¶ ↑

一个组可以被设置为非捕获；它仍然是一个组（例如，可以有一个量词），但其匹配的子字符串不包括在捕获中。

一个非捕获组以 ?: 开头（在括号内）

# Don't capture the year.
re = /(?:\d\d\d\d)-(\d\d)-(\d\d)/
md = re.match('1943-02-04') # => #<MatchData "1943-02-04" 1:"02" 2:"04">

反向引用¶ ↑

组匹配也可以在正则表达式本身中引用；这种引用称为反向引用

/[csh](..) [csh]\1 in/.match('The cat sat in the hat')
# => #<MatchData "cat sat in" 1:"at">

此表显示了正则表达式中每个子表达式如何匹配目标字符串中的子字符串

| Subexpression in Regexp   | Matching Substring in Target String |
|---------------------------|-------------------------------------|
|       First '[csh]'       |            Character 'c'            |
|          '(..)'           |        First substring 'at'         |
|      First space ' '      |      First space character ' '      |
|       Second '[csh]'      |            Character 's'            |
| '\1' (backreference 'at') |        Second substring 'at'        |
|           ' in'           |            Substring ' in'          |

一个正则表达式可以包含任意数量的组

对于大量组
- 普通的 \n 表示法仅适用于 (1..9) 范围内的 n。
- MatchData[n] 表示法适用于任何非负数 n。
\0 是一个特殊的反向引用，指的是整个匹配的字符串；它不能在正则表达式本身中使用，但可以在其外部使用（例如，在替换方法调用中）
```
'The cat sat in the hat'.gsub(/[csh]at/, '\0s')
# => "The cats sats in the hats"
```

命名捕获¶ ↑

如上所述，捕获可以通过其编号引用。捕获也可以有一个名称，前缀为 ?<name> 或 ?'name'，并且该名称（符号化）可以用作 MatchData[] 中的索引

md = /\$(?<dollars>\d+)\.(?'cents'\d+)/.match("$3.67")
# => #<MatchData "$3.67" dollars:"3" cents:"67">
md[:dollars]  # => "3"
md[:cents]    # => "67"
# The capture numbers are still valid.
md[2]         # => "67"

当正则表达式包含命名捕获时，没有未命名的捕获

/\$(?<dollars>\d+)\.(\d+)/.match("$3.67")
# => #<MatchData "$3.67" dollars:"3">

命名组可以被反向引用为 \k<name>

/(?<vowel>[aeiou]).\k<vowel>.\k<vowel>/.match('ototomy')
# => #<MatchData "ototo" vowel:"o">

当（且仅当）正则表达式包含命名捕获组并出现在 =~ 运算符之前时，捕获的子字符串将被分配给具有相应名称的局部变量

/\$(?<dollars>\d+)\.(?<cents>\d+)/ =~ '$3.67'
dollars # => "3"
cents   # => "67"

方法 Regexp#named_captures 返回捕获名称和子字符串的哈希值；方法 Regexp#names 返回捕获名称的数组。

原子分组¶ ↑

可以使用 (?>子表达式) 将组设置为原子。

这将导致子表达式独立于表达式的其余部分进行匹配，以便匹配的子字符串在匹配的其余部分中变为固定，除非必须放弃并随后重新访问整个子表达式。

通过这种方式，子表达式被视为不可分割的整体。原子分组通常用于优化模式，以防止不必要的回溯。

示例（不使用原子分组）

/".*"/.match('"Quote"') # => #<MatchData "\"Quote\"">

分析

模式中前导的子表达式 " 匹配目标字符串中的第一个字符 "。
下一个子表达式 .* 匹配下一个子字符串 Quote“（包括尾部的双引号）。
现在目标字符串中没有剩余内容来匹配模式中尾部的子表达式 "；这将导致整体匹配失败。
匹配的子字符串回溯一个位置：Quote。
最终子表达式 " 现在匹配最终子字符串 "，并且整体匹配成功。

如果子表达式 .* 是原子分组的，则禁用回溯，并且整体匹配失败

/"(?>.*)"/.match('"Quote"') # => nil

原子分组会影响性能；请参阅原子组。

子表达式调用¶ ↑

如上所述，反向引用编号 (\n) 或名称 (\k<name>) 提供对捕获的子字符串的访问权限；相应的正则表达式子表达式也可以通过编号 (\gn) 或名称 (\g<name>) 访问

/\A(?<paren>\(\g<paren>*\))*\z/.match('(())')
# ^1
#      ^2
#           ^3
#                 ^4
#      ^5
#           ^6
#                      ^7
#                       ^8
#                       ^9
#                           ^10

模式

在字符串的开头匹配，即在第一个字符之前。
进入名为 paren 的命名组。
匹配字符串中的第一个字符，'('。
再次调用 paren 组，即递归回到第二步。
重新进入 paren 组。
匹配字符串中的第二个字符，'('。
尝试第三次调用 paren，但失败，因为这样做会阻止整体成功匹配。
匹配字符串中的第三个字符，')'；标记第二个递归调用的结束
匹配字符串中的第四个字符，')'。
匹配字符串的结尾。

请参阅子表达式调用。

条件¶ ↑

条件构造采用 (?(cond)yes|no) 的形式，其中

cond 可以是捕获编号或名称。
如果要应用的匹配项为 yes（如果捕获了 cond）；否则，要应用的匹配项为 no。
如果不需要，可以省略 |no。

示例

re = /\A(foo)?(?(1)(T)|(F))\z/
re.match('fooT') # => #<MatchData "fooT" 1:"foo" 2:"T" 3:nil>
re.match('F')    # => #<MatchData "F" 1:nil 2:nil 3:"F">
re.match('fooF') # => nil
re.match('T')    # => nil

re = /\A(?<xyzzy>foo)?(?(<xyzzy>)(T)|(F))\z/
re.match('fooT') # => #<MatchData "fooT" xyzzy:"foo">
re.match('F')    # => #<MatchData "F" xyzzy:nil>
re.match('fooF') # => nil
re.match('T')    # => nil

不存在运算符¶ ↑

不存在运算符是一个特殊组，它匹配任何与包含的子表达式不匹配的内容。

/(?~real)/.match('surrealist') # => #<MatchData "surrea">
/(?~real)ist/.match('surrealist') # => #<MatchData "ealist">
/sur(?~real)ist/.match('surrealist') # => nil

Unicode¶ ↑

Unicode 属性¶ ↑

/\p{property_name}/ 构造（带有小写 p）使用 Unicode 属性名称匹配字符，很像字符类；属性 Alpha 指定字母字符

/\p{Alpha}/.match('a') # => #<MatchData "a">
/\p{Alpha}/.match('1') # => nil

可以通过在名称前加上插入符号 (^) 来反转属性

/\p{^Alpha}/.match('1') # => #<MatchData "1">
/\p{^Alpha}/.match('a') # => nil

或者使用 \P（大写 P）

/\P{Alpha}/.match('1') # => #<MatchData "1">
/\P{Alpha}/.match('a') # => nil

请参阅 Unicode 属性以获取基于众多属性的正则表达式。

一些常用属性对应于 POSIX 方括号表达式

/\p{Alnum}/：字母数字字符
/\p{Alpha}/：字母字符
/\p{Blank}/：空格或制表符
/\p{Cntrl}/：控制字符
/\p{Digit}/：数字字符，以及类似字符
/\p{Lower}/：小写字母字符
/\p{Print}/：与 \p{Graph} 类似，但包括空格字符
/\p{Punct}/：标点字符
/\p{Space}/：空白字符 ([:blank:]、换行符、回车符等)
/\p{Upper}/：大写字母
/\p{XDigit}/：十六进制数中允许的数字（即 0-9a-fA-F）

这些也经常使用

/\p{Emoji}/：Unicode 表情符号。
/\p{Graph}/：不包括 /\p{Cntrl}/ 和 /\p{Space}/ 的字符。请注意，Unicode “格式”类别下的不可见字符也包括在内。
/\p{Word}/：以下 Unicode 字符类别之一的成员（请参阅下文）或具有以下 Unicode 属性之一的成员
- Unicode 类别
  - Mark (M)。
  - Decimal Number (Nd)
  - Connector Punctuation (Pc)。
- Unicode 属性
  - Alpha
  - Join_Control
/\p{ASCII}/：ASCII 字符集中的字符。
/\p{Any}/：任何 Unicode 字符（包括未分配的字符）。
/\p{Assigned}/：已分配的字符。

Unicode 字符类别¶ ↑

Unicode 字符类别名称

可以是其全名或其缩写名称。
不区分大小写。
将空格、连字符和下划线视为等效。

示例

/\p{lu}/                # => /\p{lu}/
/\p{LU}/                # => /\p{LU}/
/\p{Uppercase Letter}/  # => /\p{Uppercase Letter}/
/\p{Uppercase_Letter}/  # => /\p{Uppercase_Letter}/
/\p{UPPERCASE-LETTER}/  # => /\p{UPPERCASE-LETTER}/

以下是 Unicode 字符类别缩写和名称。每个类别中字符的枚举在链接中。

字母

L, Letter: LC, Lm, 或 Lo。
LC, Cased_Letter: Ll, Lt, 或 Lu。
Lu, Lowercase_Letter.
Lu, Modifier_Letter.
Lu, Other_Letter.
Lu，首字母大写字母.
Lu，大写字母.

标记

M，标记：Mc、Me 或 Mn。
Mc，间距标记.
Me，闭合标记.
Mn，非间距标记.

数字

N，数字：Nd、Nl 或 No。
Nd，十进制数字.
Nl，字母数字.
No，其他数字.

标点符号

P，标点符号：Pc、Pd、Pe、Pf、Pi、Po 或 Ps。
Pc，连接符标点符号.
Pd，破折号标点符号.
Pe，闭合标点符号.
Pf，最终标点符号.
Pi，初始标点符号.
Po，其他标点符号.
Ps，开放标点符号.
S，符号：Sc、Sk、Sm 或 So。
Sc，货币符号.
Sk，修饰符符号.
Sm，数学符号.
So，其他符号.
Z，分隔符：Zl、Zp 或 Zs。
Zl，行分隔符.
Zp，段落分隔符.
Zs，空格分隔符.
C，其他：Cc、Cf、Cn、Co 或 Cs。
Cc，控制字符.
Cf，格式字符.
Cn，未分配字符.
Co，私有使用字符.
Cs，代理字符.

Unicode 脚本和区块¶ ↑

Unicode 属性包括

Unicode 脚本；参见支持的脚本。
Unicode 区块；参见支持的区块。

POSIX 括号表达式¶ ↑

POSIX *括号表达式*也类似于字符类。这些表达式提供了上述内容的可移植替代方案，并具有包含非 ASCII 字符的额外好处。

/\d/仅匹配 ASCII 十进制数字 0 到 9。
/[[:digit:]]/匹配 Unicode 十进制数字(Nd) 类别中的任何字符；请参见下文。

POSIX 括号表达式

/[[:digit:]]/：匹配Unicode 数字

/[[:digit:]]/.match('9')       # => #<MatchData "9">
/[[:digit:]]/.match("\u1fbf9") # => #<MatchData "9">

/[[:xdigit:]]/：匹配十六进制数字中允许的数字；等效于[0-9a-fA-F]。

/[[:upper:]]/：匹配Unicode 大写字母

/[[:upper:]]/.match('A')      # => #<MatchData "A">
/[[:upper:]]/.match("\u00c6") # => #<MatchData "Æ">

/[[:lower:]]/：匹配Unicode 小写字母

/[[:lower:]]/.match('a')      # => #<MatchData "a">
/[[:lower:]]/.match("\u01fd") # => #<MatchData "ǽ">

/[[:alpha:]]/：匹配 /[[:upper:]]/ 或 /[[:lower:]]/。
/[[:alnum:]]/：匹配 /[[:alpha:]]/ 或 /[[:digit:]]/。

/[[:space:]]/：匹配Unicode 空格字符

/[[:space:]]/.match(' ')      # => #<MatchData " ">
/[[:space:]]/.match("\u2005") # => #<MatchData " ">

/[[:blank:]]/：匹配 /[[:space:]]/ 或制表符

/[[:blank:]]/.match(' ')      # => #<MatchData " ">
/[[:blank:]]/.match("\u2005") # => #<MatchData " ">
/[[:blank:]]/.match("\t")     # => #<MatchData "\t">

/[[:cntrl:]]/：匹配Unicode 控制字符

/[[:cntrl:]]/.match("\u0000") # => #<MatchData "\u0000">
/[[:cntrl:]]/.match("\u009f") # => #<MatchData "\u009F">

/[[:graph:]]/：匹配除 /[[:space:]]/ 或 /[[:cntrl:]]/ 之外的任何字符。
/[[:print:]]/：匹配 /[[:graph:]]/ 或空格字符。
/[[:punct:]]/：匹配任何（Unicode 标点符号字符}[www.compart.com/en/unicode/category/Po]

Ruby 还支持以下（非 POSIX）括号表达式

/[[:ascii:]]/：匹配 ASCII 字符集中的字符。
/[[:word:]]/：匹配以下 Unicode 字符类别之一中的字符或具有以下 Unicode 属性之一的字符
- Unicode 类别
  - Mark (M)。
  - Decimal Number (Nd)
  - Connector Punctuation (Pc)。
- Unicode 属性
  - Alpha
  - Join_Control

注释¶ ↑

可以使用 (?#注释) 构造在正则表达式模式中包含注释，其中 *comment* 是要忽略的子字符串。正则表达式引擎忽略任意文本

/foo(?#Ignore me)bar/.match('foobar') # => #<MatchData "foobar">

注释不能包含未转义的终止符字符。

另请参阅扩展模式。

模式¶ ↑

以下每个修饰符都为正则表达式设置一个模式

i：/模式/i 设置不区分大小写模式。
m：/模式/m 设置多行模式。
x：/模式/x 设置扩展模式。
o：/模式/o 设置插值模式。

可以应用其中任意一个、全部或都不应用。

修饰符 i、m 和 x 可以应用于子表达式

(?*modifier*) 为后续子表达式打开模式
(?-*modifier*) 为后续子表达式关闭模式
(?*modifier*:*subexp*) 为组内的 *subexp* 打开模式
(?-*modifier*:*subexp*) 为组内的 *subexp* 关闭模式

示例

re = /(?i)te(?-i)st/
re.match('test') # => #<MatchData "test">
re.match('TEst') # => #<MatchData "TEst">
re.match('TEST') # => nil
re.match('teST') # => nil

re = /t(?i:e)st/
re.match('test') # => #<MatchData "test">
re.match('tEst') # => #<MatchData "tEst">
re.match('tEST') # => nil

方法Regexp#options 返回一个整数，其值显示不区分大小写模式、多行模式和扩展模式的设置。

不区分大小写模式¶ ↑

默认情况下，正则表达式是区分大小写的

/foo/.match('FOO')  # => nil

修饰符 i 启用不区分大小写模式

/foo/i.match('FOO')
# => #<MatchData "FOO">

方法Regexp#casefold? 返回该模式是否不区分大小写。

多行模式¶ ↑

Ruby 中的多行模式通常称为“点全部模式”

如果没有 m 修饰符，则子表达式 . 不匹配换行符
```
/a.c/.match("a\nc")  # => nil
```

使用修饰符，它会匹配

/a.c/m.match("a\nc") # => #<MatchData "a\nc">

与其他语言不同，修饰符 m 不影响锚点 ^ 和 $。这些锚点始终在 Ruby 中匹配行边界。

扩展模式¶ ↑

修饰符 x 启用扩展模式，这意味着

模式中的文字空格将被忽略。
字符 # 将其所在行的剩余部分标记为注释，该注释也将被忽略以进行匹配。

在扩展模式下，可以使用空格和注释来形成自文档化的正则表达式。

未处于扩展模式的Regexp（匹配某些罗马数字）

pattern = '^M{0,3}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,3})$'
re = /#{pattern}/
re.match('MCMXLIII') # => #<MatchData "MCMXLIII" 1:"CM" 2:"XL" 3:"III">

处于扩展模式的Regexp

pattern = <<-EOT
  ^                   # beginning of string
  M{0,3}              # thousands - 0 to 3 Ms
  (CM|CD|D?C{0,3})    # hundreds - 900 (CM), 400 (CD), 0-300 (0 to 3 Cs),
                      #            or 500-800 (D, followed by 0 to 3 Cs)
  (XC|XL|L?X{0,3})    # tens - 90 (XC), 40 (XL), 0-30 (0 to 3 Xs),
                      #        or 50-80 (L, followed by 0 to 3 Xs)
  (IX|IV|V?I{0,3})    # ones - 9 (IX), 4 (IV), 0-3 (0 to 3 Is),
                      #        or 5-8 (V, followed by 0 to 3 Is)
  $                   # end of string
EOT
re = /#{pattern}/x
re.match('MCMXLIII') # => #<MatchData "MCMXLIII" 1:"CM" 2:"XL" 3:"III">

插值模式¶ ↑

修饰符 o 表示第一次遇到带有插值的文字正则表达式时，将保存生成的Regexp对象，并将其用于该文字正则表达式的所有未来评估。如果没有修饰符 o，则不会保存生成的Regexp，因此每次评估文字正则表达式时都会生成一个新的Regexp对象。

没有修饰符 o

def letters; sleep 5; /[A-Z][a-z]/; end
words = %w[abc def xyz]
start = Time.now
words.each {|word| word.match(/\A[#{letters}]+\z/) }
Time.now - start # => 15.0174892

带有修饰符 o

start = Time.now
words.each {|word| word.match(/\A[#{letters}]+\z/o) }
Time.now - start # => 5.0010866

请注意，如果文字正则表达式没有插值，则 o 行为为默认行为。

编码¶ ↑

默认情况下，仅包含 US-ASCII 字符的正则表达式具有 US-ASCII 编码

re = /foo/
re.source.encoding # => #<Encoding:US-ASCII>
re.encoding        # => #<Encoding:US-ASCII>

包含非 US-ASCII 字符的正则表达式假定使用源编码。可以使用以下修饰符之一覆盖此设置。

/pat/n：如果仅包含 US-ASCII 字符，则为 US-ASCII；否则为 ASCII-8BIT

/foo/n.encoding     # => #<Encoding:US-ASCII>
/foo\xff/n.encoding # => #<Encoding:ASCII-8BIT>
/foo\x7f/n.encoding # => #<Encoding:US-ASCII>

/pat/u：UTF-8
```
/foo/u.encoding # => #<Encoding:UTF-8>
```

/pat/e：EUC-JP

/foo/e.encoding # => #<Encoding:EUC-JP>

/pat/s：Windows-31J

/foo/s.encoding # => #<Encoding:Windows-31J>

当满足以下任一条件时，正则表达式可以与目标字符串匹配

它们具有相同的编码。
正则表达式的编码是固定编码，并且字符串仅包含 ASCII 字符。Method Regexp#fixed_encoding? 返回正则表达式是否具有*固定*编码。

如果尝试在不兼容的编码之间进行匹配，则会引发Encoding::CompatibilityError异常。

示例

re = eval("# encoding: ISO-8859-1\n/foo\\xff?/")
re.encoding                 # => #<Encoding:ISO-8859-1>
re =~ "foo".encode("UTF-8") # => 0
re =~ "foo\u0100"           # Raises Encoding::CompatibilityError

可以通过在Regexp.new的第二个参数中包含Regexp::FIXEDENCODING来显式固定编码

# Regexp with encoding ISO-8859-1.
re = Regexp.new("a".force_encoding('iso-8859-1'), Regexp::FIXEDENCODING)
re.encoding  # => #<Encoding:ISO-8859-1>
# Target string with encoding UTF-8.
s = "a\u3042"
s.encoding   # => #<Encoding:UTF-8>
re.match(s)  # Raises Encoding::CompatibilityError.

超时¶ ↑

当正则表达式源或目标字符串来自不受信任的输入时，恶意值可能会成为拒绝服务攻击；为了防止此类攻击，最好设置超时。

正则表达式有两个超时值

类默认超时，用于实例超时为 nil 的正则表达式；此默认值最初为 nil，并且可以通过方法 Regexp.timeout= 设置
```
Regexp.timeout # => nil
Regexp.timeout = 3.0
Regexp.timeout # => 3.0
```

实例超时，其默认值为 nil，可以在Regexp.new中设置

re = Regexp.new('foo', timeout: 5.0)
re.timeout # => 5.0

当 regexp.timeout 为 nil 时，超时“回退”到Regexp.timeout；当 regexp.timeout 为非 nil 时，该值控制超时

| regexp.timeout Value | Regexp.timeout Value |            Result           |
|----------------------|----------------------|-----------------------------|
|         nil          |          nil         |       Never times out.      |
|         nil          |         Float        | Times out in Float seconds. |
|        Float         |          Any         | Times out in Float seconds. |

优化¶ ↑

对于模式和目标字符串的某些值，匹配时间可能会与输入大小成多项式或指数级增长；由此产生的潜在漏洞是正则表达式拒绝服务 (ReDoS) 攻击。

正则表达式匹配可以应用优化来防止 ReDoS 攻击。应用优化后，匹配时间与输入大小成线性（不是多项式或指数级）增长，并且不可能发生 ReDoS 攻击。

如果模式符合以下条件，则应用此优化

无反向引用。
无子表达式调用。
无嵌套环顾锚点或原子组。
无带计数的嵌套量词（即，无嵌套 {n}、{min,}、{,max} 或 {min,max} 样式量词）

可以使用方法 Regexp.linear_time? 来确定模式是否符合这些条件

Regexp.linear_time?(/a*/)     # => true
Regexp.linear_time?('a*')     # => true
Regexp.linear_time?(/(a*)\1/) # => false

但是，即使方法返回 true，不受信任的源也可能不安全，因为优化使用记忆化（这可能会导致大量内存消耗）。

参考¶ ↑

阅读（在线 PDF 书籍）

精通正则表达式，作者：Jeffrey E.F. Friedl。
正则表达式食谱，作者：Jan Goyvaerts & Steven Levithan。

探索，测试（交互式在线编辑器）

Rubular.

常量

EXTENDED: 请参阅 Regexp.options 和 Regexp.new
FIXEDENCODING: 请参阅 Regexp.options 和 Regexp.new
IGNORECASE: 请参阅 Regexp.options 和 Regexp.new
MULTILINE: 请参阅 Regexp.options 和 Regexp.new
NOENCODING: 请参阅 Regexp.options 和 Regexp.new

公共类方法

compile (*args)

Regexp.new 的别名

escape(string) → new_string

源

static VALUE
rb_reg_s_quote(VALUE c, VALUE str)
{
    return rb_reg_quote(reg_operand(str, TRUE));
}

返回一个新字符串，该字符串转义在正则表达式中具有特殊含义的任何字符

s = Regexp.escape('\*?{}.')      # => "\\\\\\*\\?\\{\\}\\."

对于任何字符串 s，此调用都会返回一个MatchData对象

r = Regexp.new(Regexp.escape(s)) # => /\\\\\\\*\\\?\\\{\\\}\\\./
r.match(s)                       # => #<MatchData "\\\\\\*\\?\\{\\}\\.">

json_create (object)

源

# File ext/json/lib/json/add/regexp.rb, line 9
def self.json_create(object)
  new(object['s'], object['o'])
end

请参阅as_json。

last_match → matchdata 或 nil

last_match(n) → string 或 nil

last_match(name) → string 或 nil

源

static VALUE
rb_reg_s_last_match(int argc, VALUE *argv, VALUE _)
{
    if (rb_check_arity(argc, 0, 1) == 1) {
        VALUE match = rb_backref_get();
        int n;
        if (NIL_P(match)) return Qnil;
        n = match_backref_number(match, argv[0]);
        return rb_reg_nth_match(n, match);
    }
    return match_getter();
}

如果不带参数，则返回 $~ 的值，这是最近一次模式匹配的结果（请参阅正则表达式全局变量）

/c(.)t/ =~ 'cat'  # => 0
Regexp.last_match # => #<MatchData "cat" 1:"a">
/a/ =~ 'foo'      # => nil
Regexp.last_match # => nil

如果带有非负整数参数 n，则返回 matchdata 中的第 _n_ 个字段（如果有），否则返回 nil

/c(.)t/ =~ 'cat'     # => 0
Regexp.last_match(0) # => "cat"
Regexp.last_match(1) # => "a"
Regexp.last_match(2) # => nil

如果带有负整数参数 n，则从最后一个字段向后计数

Regexp.last_match(-1)       # => "a"

使用字符串或符号参数 name，返回指定捕获组的字符串值（如果存在）。

/(?<lhs>\w+)\s*=\s*(?<rhs>\w+)/ =~ 'var = val'
Regexp.last_match        # => #<MatchData "var = val" lhs:"var"rhs:"val">
Regexp.last_match(:lhs)  # => "var"
Regexp.last_match('rhs') # => "val"
Regexp.last_match('foo') # Raises IndexError.

linear_time?(re)

linear_time?(string, options = 0)

源

static VALUE
rb_reg_s_linear_time_p(int argc, VALUE *argv, VALUE self)
{
    struct reg_init_args args;
    VALUE re = reg_extract_args(argc, argv, &args);

    if (NIL_P(re)) {
        re = reg_init_args(rb_reg_alloc(), args.str, args.enc, args.flags);
    }

    return RBOOL(onig_check_linear_time(RREGEXP_PTR(re)));
}

如果针对 re 的匹配可以在输入字符串的线性时间内完成，则返回 true。

Regexp.linear_time?(/re/) # => true

请注意，这是 Ruby 解释器的属性，而不是参数正则表达式的属性。相同的正则表达式可能可以或不能在线性时间内运行，具体取决于您的 Ruby 二进制文件。关于此方法的返回值，不保证向前或向后兼容性。我们当前的算法是 (*1)，但将来可能会更改。其他实现的行为也可能不同。它们可能始终对所有内容返回 false。

(*1): doi.org/10.1109/SP40001.2021.00032

new(string, options = 0, timeout: nil) → regexp

new(regexp, timeout: nil) → regexp

源

static VALUE
rb_reg_initialize_m(int argc, VALUE *argv, VALUE self)
{
    struct reg_init_args args;
    VALUE re = reg_extract_args(argc, argv, &args);

    if (NIL_P(re)) {
        reg_init_args(self, args.str, args.enc, args.flags);
    }
    else {
        reg_copy(self, re);
    }

    set_timeout(&RREGEXP_PTR(self)->timelimit, args.timeout);

    return self;
}

使用给定的参数 string，返回一个新的正则表达式，其中包含给定的字符串和选项。

r = Regexp.new('foo') # => /foo/
r.source              # => "foo"
r.options             # => 0

可选参数 options 是以下之一：

一个 String 类型的选项字符串。

Regexp.new('foo', 'i')  # => /foo/i
Regexp.new('foo', 'im') # => /foo/im

一个或多个常量 Regexp::EXTENDED、Regexp::IGNORECASE、Regexp::MULTILINE 和 Regexp::NOENCODING 的按位或运算结果。

Regexp.new('foo', Regexp::IGNORECASE) # => /foo/i
Regexp.new('foo', Regexp::EXTENDED)   # => /foo/x
Regexp.new('foo', Regexp::MULTILINE)  # => /foo/m
Regexp.new('foo', Regexp::NOENCODING)  # => /foo/n
flags = Regexp::IGNORECASE | Regexp::EXTENDED |  Regexp::MULTILINE
Regexp.new('foo', flags)              # => /foo/mix

nil 或 false，它们将被忽略。
任何其他真值，在这种情况下，正则表达式将不区分大小写。

如果给定了可选的关键字参数 timeout，则其浮点数值将覆盖该类的超时间隔，Regexp.timeout。如果将 nil 作为 +timeout 传递，它将使用该类的超时间隔，Regexp.timeout。

使用给定的参数 regexp，返回一个新的正则表达式。其源、选项和超时时间与 regexp 相同。options 和 n_flag 参数无效。超时时间可以使用 timeout 关键字覆盖。

options = Regexp::MULTILINE
r = Regexp.new('foo', options, timeout: 1.1) # => /foo/m
r2 = Regexp.new(r)                           # => /foo/m
r2.timeout                                   # => 1.1
r3 = Regexp.new(r, timeout: 3.14)            # => /foo/m
r3.timeout                                   # => 3.14

escape(string) → new_string

源

static VALUE
rb_reg_s_quote(VALUE c, VALUE str)
{
    return rb_reg_quote(reg_operand(str, TRUE));
}

返回一个新字符串，该字符串转义在正则表达式中具有特殊含义的任何字符

s = Regexp.escape('\*?{}.')      # => "\\\\\\*\\?\\{\\}\\."

对于任何字符串 s，此调用都会返回一个MatchData对象

r = Regexp.new(Regexp.escape(s)) # => /\\\\\\\*\\\?\\\{\\\}\\\./
r.match(s)                       # => #<MatchData "\\\\\\*\\?\\{\\}\\.">

timeout → float 或 nil

源

static VALUE
rb_reg_s_timeout_get(VALUE dummy)
{
    double d = hrtime2double(rb_reg_match_time_limit);
    if (d == 0.0) return Qnil;
    return DBL2NUM(d);
}

它返回 Regexp 匹配的当前默认超时间隔（以秒为单位）。nil 表示没有默认的超时配置。

timeout = float 或 nil

源

static VALUE
rb_reg_s_timeout_set(VALUE dummy, VALUE timeout)
{
    rb_ractor_ensure_main_ractor("can not access Regexp.timeout from non-main Ractors");

    set_timeout(&rb_reg_match_time_limit, timeout);

    return timeout;
}

它设置 Regexp 匹配的默认超时间隔（以秒为单位）。nil 表示没有默认的超时配置。此配置是进程全局的。如果要为每个 Regexp 设置超时，请使用 Regexp.new 的 timeout 关键字。

Regexp.timeout = 1
/^a*b?a*$/ =~ "a" * 100000 + "x" #=> regexp match timeout (RuntimeError)

try_convert(object) → regexp 或 nil

源

static VALUE
rb_reg_s_try_convert(VALUE dummy, VALUE re)
{
    return rb_check_regexp_type(re);
}

如果 object 是正则表达式，则返回 object。

Regexp.try_convert(/re/) # => /re/

否则，如果 object 响应 :to_regexp，则调用 object.to_regexp 并返回结果。

如果 object 不响应 :to_regexp，则返回 nil。

Regexp.try_convert('re') # => nil

除非 object.to_regexp 返回正则表达式，否则会引发异常。

union(*patterns) → regexp

union(array_of_patterns) → regexp

源

static VALUE
rb_reg_s_union_m(VALUE self, VALUE args)
{
    VALUE v;
    if (RARRAY_LEN(args) == 1 &&
        !NIL_P(v = rb_check_array_type(rb_ary_entry(args, 0)))) {
        return rb_reg_s_union(self, v);
    }
    return rb_reg_s_union(self, args);
}

返回一个由给定模式的并集组成的新正则表达式。

r = Regexp.union(%w[cat dog])      # => /cat|dog/
r.match('cat')      # => #<MatchData "cat">
r.match('dog')      # => #<MatchData "dog">
r.match('cog')      # => nil

对于每个作为字符串的模式，将使用 Regexp.new(pattern)。

Regexp.union('penzance')             # => /penzance/
Regexp.union('a+b*c')                # => /a\+b\*c/
Regexp.union('skiing', 'sledding')   # => /skiing|sledding/
Regexp.union(['skiing', 'sledding']) # => /skiing|sledding/

对于每个作为正则表达式的模式，它将按原样使用，包括其标志。

Regexp.union(/foo/i, /bar/m, /baz/x)
# => /(?i-mx:foo)|(?m-ix:bar)|(?x-mi:baz)/
Regexp.union([/foo/i, /bar/m, /baz/x])
# => /(?i-mx:foo)|(?m-ix:bar)|(?x-mi:baz)/

如果没有参数，则返回 /(?!)/。

Regexp.union # => /(?!)/

如果任何正则表达式模式包含捕获，则行为未指定。

公共实例方法

regexp == object → true 或 false

如果 object 是另一个正则表达式，其模式、标志和编码与 self 相同，则返回 true，否则返回 false。

/foo/ == Regexp.new('foo')                          # => true
/foo/ == /foo/i                                     # => false
/foo/ == Regexp.new('food')                         # => false
/foo/ == Regexp.new("abc".force_encoding("euc-jp")) # => false

别名：eql?

regexp === string → true 或 false

源

static VALUE
rb_reg_eqq(VALUE re, VALUE str)
{
    long start;

    str = reg_operand(str, FALSE);
    if (NIL_P(str)) {
        rb_backref_set(Qnil);
        return Qfalse;
    }
    start = rb_reg_search(re, str, 0, 0);
    return RBOOL(start >= 0);
}

如果 self 在 string 中找到匹配项，则返回 true。

/^[a-z]*$/ === 'HELLO' # => false
/^[A-Z]*$/ === 'HELLO' # => true

此方法在 case 语句中调用。

s = 'HELLO'
case s
when /\A[a-z]*\z/; print "Lower case\n"
when /\A[A-Z]*\z/; print "Upper case\n"
else               print "Mixed case\n"
end # => "Upper case"

regexp =~ string → integer 或 nil

源

VALUE
rb_reg_match(VALUE re, VALUE str)
{
    long pos = reg_match_pos(re, &str, 0, NULL);
    if (pos < 0) return Qnil;
    pos = rb_str_sublen(str, pos);
    return LONG2FIX(pos);
}

返回 self 和 string 的第一个匹配项的整数索引（以字符为单位），如果没有匹配项，则返回 nil；还会设置 rdoc-ref:Regexp 全局变量。

/at/ =~ 'input data' # => 7
$~                   # => #<MatchData "at">
/ax/ =~ 'input data' # => nil
$~                   # => nil

当且仅当 self 满足以下条件时，才将命名捕获分配给同名的局部变量：

是一个正则表达式字面量；请参阅正则表达式字面量。
不包含插值；请参阅正则表达式插值。
位于表达式的左侧。

示例

/(?<lhs>\w+)\s*=\s*(?<rhs>\w+)/ =~ '  x = y  '
p lhs # => "x"
p rhs # => "y"

如果没有匹配项，则赋值为 nil。

/(?<lhs>\w+)\s*=\s*(?<rhs>\w+)/ =~ '  x = '
p lhs # => nil
p rhs # => nil

如果 self 不是正则表达式字面量，则不进行局部变量赋值。

r = /(?<foo>\w+)\s*=\s*(?<foo>\w+)/
r =~ '  x = y  '
p foo # Undefined local variable
p bar # Undefined local variable

如果正则表达式不在左侧，则不进行赋值。

'  x = y  ' =~ /(?<foo>\w+)\s*=\s*(?<foo>\w+)/
p foo, foo # Undefined local variables

正则表达式插值 #{} 也会禁用赋值。

r = /(?<foo>\w+)/
/(?<foo>\w+)\s*=\s*#{r}/ =~ 'x = y'
p foo # Undefined local variable

~ rxp → integer 或 nil

源

VALUE
rb_reg_match2(VALUE re)
{
    long start;
    VALUE line = rb_lastline_get();

    if (!RB_TYPE_P(line, T_STRING)) {
        rb_backref_set(Qnil);
        return Qnil;
    }

    start = rb_reg_search(re, line, 0, 0);
    if (start < 0) {
        return Qnil;
    }
    start = rb_str_sublen(line, start);
    return LONG2FIX(start);
}

等效于 rxp =~ $_。

$_ = "input data"
~ /at/ # => 7

as_json (*)

源

# File ext/json/lib/json/add/regexp.rb, line 28
def as_json(*)
  {
    JSON.create_id => self.class.name,
    'o'            => options,
    's'            => source,
  }
end

可以使用 Regexp#as_json 和 Regexp.json_create 方法来序列化和反序列化 Regexp 对象；请参阅 Marshal。

Regexp#as_json 方法序列化 self，返回一个包含 2 个元素的哈希值，表示 self。

require 'json/add/regexp'
x = /foo/.as_json
# => {"json_class"=>"Regexp", "o"=>0, "s"=>"foo"}

JSON.create 方法反序列化这样的哈希值，返回一个 Regexp 对象。

Regexp.json_create(x) # => /foo/

casefold? → true 或 false

源

static VALUE
rb_reg_casefold_p(VALUE re)
{
    rb_reg_check(re);
    return RBOOL(RREGEXP_PTR(re)->options & ONIG_OPTION_IGNORECASE);
}

如果 self 中的不区分大小写标志已设置，则返回 true，否则返回 false。

/a/.casefold?           # => false
/a/i.casefold?          # => true
/(?i:a)/.casefold?      # => false

encoding → encoding

源

VALUE
rb_obj_encoding(VALUE obj)
{
    int idx = rb_enc_get_index(obj);
    if (idx < 0) {
        rb_raise(rb_eTypeError, "unknown encoding");
    }
    return rb_enc_from_encoding_index(idx & ENC_INDEX_MASK);
}

返回一个 Encoding 对象，表示 obj 的编码。

eql?

源

也别名为：==

fixed_encoding? → true 或 false

源

static VALUE
rb_reg_fixed_encoding_p(VALUE re)
{
    return RBOOL(FL_TEST(re, KCODE_FIXED));
}

如果 self 适用于具有任何 ASCII 兼容编码的字符串，则返回 false；否则返回 true。

r = /a/                                          # => /a/
r.fixed_encoding?                               # => false
r.match?("\u{6666} a")                          # => true
r.match?("\xa1\xa2 a".force_encoding("euc-jp")) # => true
r.match?("abc".force_encoding("euc-jp"))        # => true

r = /a/u                                        # => /a/
r.fixed_encoding?                               # => true
r.match?("\u{6666} a")                          # => true
r.match?("\xa1\xa2".force_encoding("euc-jp"))   # Raises exception.
r.match?("abc".force_encoding("euc-jp"))        # => true

r = /\u{6666}/                                  # => /\u{6666}/
r.fixed_encoding?                               # => true
r.encoding                                      # => #<Encoding:UTF-8>
r.match?("\u{6666} a")                          # => true
r.match?("\xa1\xa2".force_encoding("euc-jp"))   # Raises exception.
r.match?("abc".force_encoding("euc-jp"))        # => false

hash → integer

源

VALUE
rb_reg_hash(VALUE re)
{
    st_index_t hashval = reg_hash(re);
    return ST2FIX(hashval);
}

返回 self 的整数哈希值。