本網站的更多內容

RegexBuddy—Better than a regular expression tutorial!

簡寫字元類別

由於某些字元類別經常使用，因此提供了一系列簡寫字元類別。 \d 是 [0-9] 的簡寫。在支援 Unicode 的大多數版本中，\d 包含所有字碼，來自所有字碼集。值得注意的例外是 Java、JavaScript 和 PCRE。這些 Unicode 版本僅使用 \d 比對 ASCII 字碼。

\w 代表「字元」。它總是符合 ASCII 字元 [A-Za-z0-9_]。請注意底線和數字的包含。在支援 Unicode 的大多數版本中，\w 包含許多其他腳本的字元。關於實際包含哪些字元，有很多不一致的地方。一般來說，字母和數字腳本的字母和數字會包含在內。底線以外的連接標點符號和非數字的數字符號可能會包含或不包含。 XML 架構和 XPath 甚至包含 \w 中的所有符號。同樣地，Java、JavaScript 和 PCRE 只會以 \w 符合 ASCII 字元。

\s 代表「空白字元」。同樣地，這實際上包含哪些字元取決於 regex 版本。在本教學課程中討論的所有版本中，它包含 [ \t\r\n\f]。也就是說：\s 符合空格、標籤、回車、換行或換頁。大多數版本也包含垂直標籤，但 Perl（5.18 版以前）和 PCRE（8.34 版以前）是值得注意的例外。在支援 Unicode 的版本中，\s 通常包含 Unicode「分隔符」類別中的所有字元。 Java 和 PCRE 再次成為例外。但 JavaScript 的確以 \s 符合所有 Unicode 空白。

縮寫字元類別可以在方括號內外使用。 \s\d 符合空白字元後接數字。 [\s\d] 符合單一字元，該字元為空白或數字。應用於 1 + 2 = 3 時，前者 regex 符合 2（空格二），而後者符合 1（一）。 [\da-fA-F] 符合十六進位數字，如果您的版本只以 \d 符合 ASCII 字元，則等於 [0-9a-fA-F]。

否定簡寫字元類別

上述三個簡寫也都有否定版本。 \D 等同於 [^\d]，\W 是 [^\w] 的簡寫，而 \S 等同於 [^\s]。

在方括號內使用否定簡寫時要小心。 [\D\S] 不等於 [^\d\s]。後者會配對任何既不是數字也不是空白字元字元。它會配對 x，但不會配對 8。然而，前者會配對任何既不是數字或不是空白字元的字元。由於所有數字都不是空白字元，而所有空白字元都不是數字，因此 [\D\S] 會配對任何字元；數字、空白字元或其他。

XML 字元類別

XML Schema、XPath 和 JGsoft V2 正規表示式支援其他四個其他正規表示式樣式不支援的簡寫。 \i 比對任何可能為 XML 名稱第一個字元的字元。 \c 比對任何可能出現在 XML 名稱第一個字元後的字元。 \I 和 \C 分別為否定的簡寫。請注意， \c 簡寫語法與許多其他正規表示式樣式中使用的控制字元語法衝突。

您可以使用方括號表示法在字元類別內外使用這四個簡寫。它們對於驗證 XML 參照和 XML schema 中的值非常有用。正規表示式 \i\c* 比對 XML 名稱，例如 xml:schema。

The regex <\i\c*\s*> matches an opening XML tag without any attributes. </\i\c*\s*> matches any closing tag. <\i\c*(\s+\i\c*\s*=\s*("[^"]*"|'[^']*'))*\s*> matches an opening tag with any number of attributes. Putting it all together, <(\i\c*(\s+\i\c*\s*=\s*("[^"]*"|'[^']*'))*|/\i\c*)\s*> matches either an opening tag with attributes or a closing tag.

本教學課程中討論的其他 regex 風味不支援 XML 字元類別。如果你的 XML 檔案是純 ASCII，你可以使用 [_:A-Za-z] 代表 \i，以及 [-._:A-Za-z0-9] 代表 \c。如果你想要允許 XML 標準允許的所有 Unicode 字元，那麼你最後會得到一些相當長的 regex。你會使用以下內容取代 \i

[:A-Z_a-z\u00C0-\u00D6\u00D8-\u00F6\u00F8-\u02FF\u0370-\u037D\u037F-\u1FFF\u200C-\u200D\u2070-\u218F\u2C00-\u2FEF\u3001-\uD7FF\uF900-\uFDCF\uFDF0-\uFFFD]

你會使用以下內容取代 \c

[-.0-9:A-Z_a-z\u00B7\u00C0-\u00D6\u00D8-\u00F6\u00F8-\u037D\u037F-\u1FFF\u200C-\u200D\u203F\u2040\u2070-\u218F\u2C00-\u2FEF\u3001-\uD7FF\uF900-\uFDCF\uFDF0-\uFFFD]

簡寫字元類別

否定簡寫字元類別

更多簡寫字元類別

XML 字元類別