Regular Expression trong PHP

Regular Expression không gì khác ngoài một dãy hoặc một pattern của các ký tự. Chúng cung cấp cơ sở cho tính năng so khớp mẫu.

Sử dụng Regular Expression, bạn có thể tìm kiếm một chuỗi cụ thể bên trong một chuỗi khác, bạn có thể thay thế một chuỗi bởi chuỗi khác và bạn có thể phân chia một chuỗi thành các chuỗi con.

PHP cung cấp nhiều tính năng cụ thể cho hai tập hợp Regular Expression, mỗi tính năng tương ứng với một kiểu Regular Expression cụ thể. Bạn có thể sử dụng bất kỳ kiểu nào theo sở thích của mình.

  • POSIX Regular Expression
  • PERL Style Regular Expression

POSIX Regular Expression trong PHP

Cấu trúc của một POSIX regular expression là không giống với cấu trúc của một biểu thức số học đặc trưng: các phần tử đa dạng (các toán tử) được kết hợp để cấu thành một biểu thức phức tạp hơn.

Regular Expression đơn giản nhất là một Regular Expression mà so khớp với một ký tự đơn, ví dụ q, bên trong một chuỗi như q, quantrimang hoặc quatao.

Dưới đây là phần giải thích cho một số khái niệm đang được sử dụng trong POSIX regular expression. Sau đó, chúng tôi sẽ giới thiệu cho bạn về Regular Expression liên quan tới các hàm.

Các dấu ngoặc vuông

Các dấu ngoặc vuông ([]) có ý nghĩa đặc biệt khi được sử dụng trong ngữ cảnh của các Regular Expression. Chúng được sử dụng để tìm một dãy ký tự.

Expression Miêu tả
[0-9] Khớp với bất kỳ chữ số thập phân nào từ 0 tới 9
[a-z] Khớp với bất kỳ ký tự chữ thường từ a tới z
[A-Z] Khớp với bất kỳ ký tự chữ hoa từ A tới Z
[a-Z] Khớp với bất kỳ ký tự từ chữ thường a tới chữ hoa Z

Các dãy được chỉ ở trên là dãy chung; bạn cũng có thể sử dụng dãy [0-3] để so khớp với bất kỳ chữ số từ 0 tới 3, hoặc dãy [b-v] để so khớp với bất kỳ ký tự chữ thường nào từ b tới v.

Quantifier trong PHP

Tần suất hoặc vị trí của dãy ký tự có ngoặc đơn và ký tự đơn có thể được biểu thị bởi một ký tự đặc biệt. Mỗi ký tự đặc biệt có một ý nghĩa cụ thể. Các +, *, ?, {int. range}, và $ theo sau một dãy ký tự.

Expression Miêu tả
p+ Khớp với bất kỳ chuỗi nào chứa ít nhất một p.
p* Khớp với bất kỳ chuỗi nào chứa ít nhất một p.
p? Khớp với bất kỳ chuỗi nào chứa 0 hoặc nhiều p. Đây là sự thay thế cho việc sử dụng p*.
p{N} Khớp với bất kỳ chuỗi nào chứa một dãy gồm N p.
p{2,3} Khớp với bất kỳ chuỗi nào chứa 2 hoặc 3 p.
p{2, } Khớp với bất kỳ chuỗi nào chứa ít nhất 2 p.
p$ Khớp với bất kỳ chuỗi nào với p ở vị trí cuối của nó.
^p Khớp với bất kỳ chuỗi nào với p ở vị trí đầu của nó.

Ví dụ

Dưới đây là các ví dụ giúp bạn hiểu rõ hơn về các khái niệm so khớp các ký tự:

Expression Miêu tả
[^a-zA-Z] Khớp với bất kỳ chuỗi không chứa bất kỳ ký tự nào từ a tới z và từ A tới Z.
p.p Khớp với bất kỳ chuỗi nào chứa p, được theo sau bởi bất kỳ ký tự nào, trong trường hợp này là p.
^.{2}$ Khớp với bất kỳ chuỗi nào chứa chính xác 2 ký tự.
<b>(.*)</b> Khớp với bất kỳ chuỗi nào được bao bên trong <b> và </b>.
p(hp)* Khớp với bất kỳ chuỗi nào chứa một p được theo sau bởi 0 hoặc nhiều sự thể hiện của dãy php.

Dãy ký tự được định nghĩa trước trong PHP

Giúp bạn tiện lợi hơn trong khi lập trình, một số dãy ký tự được định nghĩa trước, mà còn được biết đến như là các lớp Character, là có sẵn cho bạn. Các lớp Character xác định một dãy toàn bộ các ký tự, ví dụ: bộ chữ cái hoặc một tập hợp integer.

Hàm tích hợp Regexp POSIX trong PHP

Hiện tại, PHP cung cấp 7 hàm để tìm kiếm các chuỗi bằng cách sử dụng POSIX regular expression. Dưới đây là bảng liệt kê các hàm này.

  • Từ phiên bản PHP 5.3.x trở lên các hàm liệt kê trong bảng này đều không được hỗ trợ nữa. Nếu bạn vẫn sử dụng, sẽ gặp lỗi dạng: Deprecated: Function tên_hàm() is deprecated. Ví dụ: Deprecated: Function ereg() is deprecated
  • Nếu đang sử dụng phiên bản PHP 5.3.x trở lên, bạn sử dụng các hàm tích hợp với Regexp PERL trong bảng bên dưới. Cụ thể: preg_match() thay thế cho ereg() và eregi(), preg_replace() thay thế cho ereg_replace() và eregi_replace(), preg_split() thay thế cho split().
Hàm Miêu tả

ereg()

Hàm ereg() tìm kiếm một chuỗi được xác định bởi string cho một chuỗi được xác định bởi pattern, trả về true nếu pattern được tìm thấy, nếu không là false.

ereg_replace()

Hàm ereg_replace() tìm kiếm chuỗi được xác định bởi pattern và thay thế pattern này với chuỗi thay thế nếu tìm thấy.
eregi() Hàm eregi() tìm một chuỗi được xác định bởi pattern cho một chuỗi được xác định bởi string. Việc tìm kiếm là không phân biệt kiểu chữ.
eregi_replace() Hàm eregi_replace() hoạt đông khá giống hàm ereg_replace(), ngoại trừ việc tìm kiếm pattern trong chuỗi là không phân biệt kiểu chữ.
split() Hàm split() phân chia một chuỗi thành các phần tử đa dạng, giới hạn của mỗi phần tử dựa trên sự xuất hiện của pattern trong chuỗi.
spliti() Hàm spliti() hoạt động khá giống hàm split(), ngoại trừ rằng nó là không phân biệt kiểu chữ.
sql_regcase() Hàm sql_regcase() có thể được xem như là một hàm tiện ích, biến đổi mỗi ký tự trong chuỗi tham số đầu vào vào trong một expression được bao bởi các dấu ngoặc vuông chứa hai ký tự

PERL-style Regular Expression trong PHP

PERL-style regular expression là tương tự như dạng POSIX. Cú pháp POSIX hầu như có thể được sử dụng cho các hàm PERL-style regular expression. Sự thực là, bạn có thể sử dụng bất kỳ quantifier đã được giới thiệu ở trên.

Dưới đây, chúng tôi giải thích một số khái niệm được sử dụng trong PERL regular expression. Sau đó sẽ là các hàm liên quan tới kiểu regular expression này.

Ký tự meta trong PHP

Về cơ bản, một ký tự meta là một ký tự chữ cái được đặt trước bởi một dấu chéo ngược để tạo thành một tổ hợp có ý nghĩa đặc biệt.

Ví dụ, bạn có thể tim kiếm các tổng lượng tiền lớn bởi sử dụng ký tự meta là '\d': /([\d]+)000/, ở đây \d tìm kiếm bất kỳ chuỗi ký tự số nào.

Dưới đây là danh sách các ký tự meta có thể được sử dụng trong PERL-style regular expression.

Ký tự Mô tả
. một ký tự đơn
\s một ký tự khoảng trắng (space, tab, newline (dòng mới))
\S ký tự không phải là khoảng trắng
\d một chữ số (0-9)
\D không phải là chữ số
\w một ký tự từ (a-z, A-Z, 0-9, _)
\W không phải là ký tự từ
[aeiou] so khớp với một ký tự đơn trong tập đã cho
[^aeiou] so khớp với một ký tự đơn bên ngoài tập đã cho
(foo|bar|baz) so khớp với bất kỳ ký tự nào đã cho

Modifier trong PHP

Một số modifier là có sẵn giúp bạn làm việc với Regexp dễ dàng hơn, như phân biệt kiểu chữ, tìm kiếm trong nhiều dòng,...

Modifier Mô tả
i Làm cho hành động so khớp là không phân biệt kiểu chữ (case insensitive).
m Xác định rằng nếu chuỗi có các ký tự newline (dòng mới) hoặc carriage return, thì các toán tử ^ và $ sẽ so khớp với newline (dòng mới) boundary, thay vì so khớp với string boundary.
o Chỉ ước lượng expression một lần.
s Cho phép sử dụng . để so khớp với ký tự newline (dòng mới).
x Cho phép bạn sử dụng khoảng trắng trong expression.
g Tìm kiếm toàn cục (global) cho mọi so khớp.
cg Cho phép tiếp tục tìm kiếm ngay cả sau khi hoạt động tìm kiếm toàn cục thất bại.

Hàm tích hợp với Regexp PERL trong PHP

PHP cung cấp các hàm sau để tìm kiếm các chuỗi sử dụng PERL regular expression. 

Hàm Miêu tả
preg_match() Hàm preg_match() tìm kiếm chuỗi cho pattern, trả về true nếu pattern tồn tại, nếu không là false.
preg_match_all() Hàm preg_match_all() so khớp tất cả sự xuất hiện của pattern trong chuỗi.
preg_replace() Hàm preg_replace() hoạt động giống như ereg_replace(), ngoại trừ việc regular expression có thể được sử dụng trong pattern và các tham số đầu vào thay thế.
preg_split() Hàm preg_split() hoạt động giống hàm split(), ngoại trừ việc regular expression được chấp nhận như là các tham số đầu vào cho pattern.
preg_grep() Hàm preg_grep() tìm kiếm tất cả phần tử của input_array, trả về tất cả phần tử mà so khớp với regexp pattern.
preg_ quote() Các ký tự trích dẫn.

Theo tutorialspoint

Bài trước: Biến được định nghĩa trước trong PHP

Bài tiếp: Xử lý ngoại lệ và lỗi (Error & Exception Handling)

Thứ Năm, 26/07/2018 21:14
3,52 👨 174