JavaScript (основы). Глава 4. Регулярные выражения
Оглавление | Назад | Вперёд | ИндексГлава 4. Регулярные выражения
Регулярные выражения являются патэрнами, используемыми при поиске совпадений комбинаций символов в строках. В JavaScript регулярные выражения являются также объектами. Эти патэрны используются с методами exec и test объекта RegExp и с методами match, replace, search и split объекта String. В этой главы рассматриваются регулярные выражения JavaScript.
JavaScript 1.1 и более ранние версии.
Регулярные выражения недоступны в JavaScript 1.1 и предыдущих версиях.
В главе имеются следующие разделы:
Создание регулярного выражения
Вы конструируете регулярное выражение одним из двух способов:
Инициализаторы объектов выполняют компиляцию регулярного выражения при вычислении скрипта. Если регулярное выражение является константным, используйте инициализатор для повышения производительности. Инициализаторы объектов обсуждаются в разделе "Использование Инициализаторов Объектов".
Использование функции-конструктора предоставляет компиляцию регулярного выражения на этапе прогона. Это делается, если известно, что патэрн регулярного выражения будет изменяться, или если Вы не знаете патэрн и получаете его из другого источника, такого как пользовательский ввод. После того как регулярное выражение определено, и если оно используется в скрипте и исходное значение изменяется, Вы можете использовать метод compile для компиляции нового регулярного выражения для более эффективного многократного использования.
Написание патэрна регулярного выражения
Патэрн регулярного выражения состоит из простых символов, например, /abc/, или из комбинаций простых и специальных символов, как /ab*c/ или /Chapter (\d+)\.\d*/. В последнем примере имеются скобки, которые использованы как запоминающее устройство. Совпадение, сделанное этой частью патэрна, запоминается для последующего использования, как описано в разделе "Использование Совпадений Подстрок в Скобках".
Использование простых патэрнов
Простые патэрны состоят из символов, для которых ищется прямое совпадение. Например, патэрн /abc/ совпадает с комбинацией символов в строке только тогда, когда символы 'abc' появляются вместе и в указанном порядке. Такое совпадение будет найдено в строках "Hi, do you know your abc's?" и "The latest airplane designs evolved from slabcraft." В обоих случаях имеется совпадение с подстрокой 'abc'. В строке "Grab crab" совпадения нет, потому что она не содержит подстроки 'abc'.
Использование специальных символов
Если при поиске требуется выполнить нечто большее, чем простое совпадение, например, найти 1 или более символов b или найти пробелы, патэрн должен содержать специальные символы. Например, патэрн /ab*c/ совпадает с любой комбинацией символов, в которой после одиночного 'a' следуют ноль или более 'b' ( * означает 0 или более вхождений предыдущего символа) и символ 'c'. В строке "cbbabbbbcdebc" этот патэрн совпадает с подстрокой 'abbbbc'.
В таблице дан полный список - описание специальных символов, которые могут использоваться в регулярных выражениях.
Таблица 4.1 Специальные символы в регулярных выражениях
Использование скобок
Скобки вокруг любой части патэрна регулярного выражения вызывают запоминание этой части совпавшей подстроки. После запоминания подстрока может быть вызвана для другого использования, как описано в разделе "Использование Совпадений Подстроки в Скобках".
Например, патэрн /Chapter (\d+)\.\d*/ иллюстрирует совпадение дополнительных заменяющих и специальных символов и указывает, что эту часть патэрна нужно запомнить. Совпадает с точно символами 'Chapter ' и последующими одной или более цифрами ( \d означает любую цифру, а + означает 1 или более раз), с последующей десятичной точкой (которая является сама по себе специальным символом; поэтому её предшествует \, что означает, что патэрн обязан искать литеральный символ '.'), с последующим цифровым символом, 0 или более раз ( \d означает цифру, * означает 0 или более раз). Кроме того, скобки используются для запоминания первых совпавших цифровых символов.
Этот патэрн находит совпадение в "Open Chapter 4.3, paragraph 6", и '4' запоминается. Патэрн не находит совпадение в "Chapter 3 and 4", поскольку эта строка не содержит точку после '3'.
Работа в регулярными выражениями
Регулярные выражения используются с методами test и exec объекта RegExp и с методами match, replace, search и split объекта String. Эти методы детально рассмотрены в книге Клиентский JavaScript. Справочник.
Таблица 4.2 Методы, использующие регулярные выражения
Если Вам необходимо выяснить, найден ли патэрн в строке, используйте методы test или search; для получения большего количества информации (и более медленного выполнения) используйте методы exec или match.
Если Вы используете exec или match и если совпадение найдено, эти методы возвращают массив и обновляют свойства ассоциированного объекта регулярного выражения и предопределённого объекта регулярного выражения, RegExp. Если совпадения нет, метод exec возвращает значение null (которое конвертируется в false).
В следующем примере скрипт использует метод exec для поиска совпадения в строке:
<SCRIPT LANGUAGE="JavaScript1.2">
myRe=/d(b+)d/g;
myArray=myRe.exec("cdbbdbsbz");
</SCRIPT>
Если Вам не нужен доступ к свойствам регулярного выражения, можно создать myArray таким скриптом:
<SCRIPT LANGUAGE="JavaScript1.2">
myArray=/d(b+)d/g.exec("cdbbdbsbz");
</SCRIPT>
Если Вы хотите иметь возможность рекомпиляции регулярного выражения, то вот ещё 1 скрипт:
<SCRIPT LANGUAGE="JavaScript1.2">
myRe= new RegExp ("d(b+)d", "g:);
myArray=myRe.exec("cdbbdbsbz");
</SCRIPT>
При выполнении скриптов производится поиск совпадения, возвращается массив и обновляются свойства, показанные в таблице.
Таблица 4.3 Результаты выполнения регулярного выражения
Объект | Свойство или Индекс | Описание | В данном примере |
---|---|---|---|
Совпавшая строка и все запомненные подстроки. | ["dbbd", "bb"] | ||
index | Индекс с базой 0 совпадения в строке ввода. | 1 | |
input | Строка-оригинал. | "cdbbdbsbz" | |
[0] | Последние совпавшие символы. | "dbbd" | |
lastIndex | Индекс, по которому находится начало следующего совпадения. (Это свойство устанавливается, только если регулярное выражение использует опцию g, описанную в разделе "Выполнение Глобального Поиска и Игнорирование Регистра Символов".) | 5 | |
source | Текст патэрна. | "d(b+)d" | |
lastMatch | Последние совпавшие символы. | "dbbd" | |
leftContext | Подстрока, предшествующая самому последнему совпадению. | "c" | |
rightContext | Подстрока, идущая после самого последнего совпадения. | "bsbz" |
RegExp.leftContext и RegExp.rightContext могут быть высчитаны из других значений.
RegExp.leftContext эквивалентно:
myArray.input.substring(0, myArray.index)
а RegExp.rightContext эквивалентно:
myArray.input.substring(myArray.index + myArray[0].length)
Как видно из второй формы этого примера, Вы можете использовать регулярное выражение, созданное инициализатором объекта, без присвоения его переменной. Если Вы это сделаете, каждое вхождение будет новым регулярным выражением. Поэтому, если Вы используете эту форму без присвоения значения, Вы не сможете получить доступ к свойствам этого регулярного выражения. Например, у Вас имеется такой скрипт:
<SCRIPT LANGUAGE="JavaScript1.2">
myRe=/d(b+)d/g;
myArray=myRe.exec("cdbbdbsbz");
document.writeln("The value of lastIndex is " + myRe.lastIndex);
</SCRIPT>
<SCRIPT LANGUAGE="JavaScript1.2">
myArray=/d(b+)d/g.exec("cdbbdbsbz");
document.writeln("The value of lastIndex is " + /d(b+)d/g.lastIndex);
</SCRIPT>
Появления /d(b+)d/g в этих двух операторах являются разными объектами регулярного выражения и, следовательно, имеют разные значения своих свойств lastIndex. Если Вам нужен доступ к свойствам регулярного выражения, созданного инициализатором объекта, Вы должны сначала присвоить его переменной.
Использование совпадений подстрок в скобках
Включение скобок в патэрн регулярного выражения вызывает запоминание соответствующего подсовпадения. Например, /a(b)c/ совпадает с символами 'abc' и запоминает 'b'. Для последующего вызова этих запомненных подсовпадений используйте свойства $1,…, $9 объекта RegExp или элементы [1],…, [n] объекта Array.
Количество подстрок в скобках не ограничено. Предопределённый объект RegExp хранит последние 9 подстрок, а массив содержит всё, что найдено. Следующие примеры иллюстрируют использование совпадений подстрок в скобках.
Следующий скрипт использует метод replace для переключения слов в строке. Для замещающего текста скрипт использует значения свойств $1 и $2.
<SCRIPT LANGUAGE="JavaScript1.2">
re=/(\w+)\s(\w+)/;
str="John Smith";
newstr=str.replace(re, "$2, $1");
document.write(newstr)
</SCRIPT>
В следующем примере RegExp.input устанавливается событием Change. В функции getInfo метод exec использует значение RegExp.input в качестве аргумента. Заметьте, что RegExp обязан быть присоединён как префикс к его свойствам $ (поскольку они появляются вне замещающей строки). (Пример 3 это более эффективный, хотя, может быть, и более завуалированный способ сделать то же самое.)
<SCRIPT LANGUAGE="JavaScript1.2">
function getInfo(){
re=/(\w+)\s(\d+)/
re.exec();
window.alert(RegExp.$1 + ", your age is " + RegExp.$2)}
</SCRIPT>
Enter your first name and your age, and then press Enter.
<INPUT TYPE=text NAME="NameAge" onChange="getInfo(this);">
</FORM>
Это пример похож на Пример 2. Но вместо использования RegExp.$1 и RegExp.$2 этот пример создаёт массив и использует a[1] и a[2]. Здесь используется также сокращённая нотация для метода exec.
<SCRIPT LANGUAGE="JavaScript1.2">
function getInfo(){
a=/(\w+)\s(\d+)/();
window.alert(a[1] + ", your age is " + a[2])}
</SCRIPT>
Enter your first name and your age, and then press Enter.
<INPUT TYPE=text NAME="NameAge" onChange="getInfo(this);">
</FORM>
Выполнение глобального поиска и игнорирование регистра символов
Регулярное выражение имеет две не обязательные опции-флаги, которые дают возможность проводить поиск глобально и без учёта регистра символов.
Для глобального поиска используйте флаг g.
Для поиска без учёта регистра используйте флаг i.
Эти флаги можно использовать вместе или по отдельности в любом порядке, и они включаются как часть регулярного выражения.
Синтаксис для включения флага:
re=new RegExp("pattern", ['g'|'i'|'gi'])
Заметьте, что флаги i и g являются неотъемлемой частью регулярного выражения. Они не могут быть добавлены и удалены позднее.
Например, re=/\w+\s/g создаёт регулярное выражение, которое ищет 1 или более символов с последующим пробелом, и ищет такую комбинацию по всей строке.
<SCRIPT LANGUAGE="JavaScript1.2">
re=/\w+\s/g;
str="fee fi fo fum";
myArray=str.match(re);
document.write(myArray);
</SCRIPT>
Это выведет ["fee ", "fi ", "fo "]. В данном примере Вы можете заменить строку:
re=new RegExp("\\w+\\s", "g");
и получить тот же самый результат.
Примеры
Далее идут пример использования регулярных выражений.
Изменение порядка в строке ввода
Это пример форматирования регулярных выражений и использования методов string.split() и string.replace(). Здесь зачищается грубо отформатированная строка ввода, содержащая имена (первое имя идёт первым), разделённые пробелом, табуляцией и одним символом "точка с запятой". Затем порядок имён разворачивается (последнее имя идёт первым) и список сортируется.
<SCRIPT LANGUAGE="JavaScript1.2">
// Строка name содержит несколько пробелов и табуляций,
// и может иметь несколько пробелов между первым и последним именами.
names=new String ( "Harry Trump;Fred Barney; Helen Rigby;\
Bill Abel;Chris Hand ")
document.write ("---------- Original String" + "<BR>" + "<BR>")
document.write (names + "<BR>" + "<BR>")
// Готовятся 2 патэрна и массив-хранилище.
// Строка делится на элементы массива.
// патэрн: возможен пробел, затем; и затем снова возможен пробел
pattern=/\s*;\s*/
// Разбивка строки на куски, разделённые вышеуказанным патэрном,
// и сохранение этих кусков в массиве nameList
nameList=names.split (pattern)
// новый патэрн: 1 или боле символов, затем пробелы, затем символы.
// Скобки используются для "запоминания" части патэрна.
// Запомненные части будут использованы позднее.
pattern=/(\w+)\s+(\w+)/
// Новый массив для хранения обрабатываемых имён.
bySurnameList=new Array;
// Вывести имя массива и заполнить этот новый массив
// именами с разделением запятыми, последнее имя идёт первым.
//
// Метод replace удаляет всё совпадающее с патэрном
// и замещает это запомненной строкой - второй запомненной частью, // с последующими запятой и пробелом, с последующей запомненной первой частью.
//
// Переменные $1 и $2 ссылаются на части, запомненные при совпадении патэрна.
document.write ("---------- After Split by Regular Expression" + "<BR>")
for ( i=0; i < nameList.length; i++){
document.write (nameList[i] + "<BR>")
bySurnameList[i]=nameList[i].replace (pattern, "$2, $1")
}
// отображение нового массива.
document.write ("---------- Names Reversed" + "<BR>")
for ( i=0; i < bySurnameList.length; i++){
document.write (bySurnameList[i] + "<BR>")
}
// сортировка по фамилии, затем вывод отсортированного массива.
bySurnameList.sort()
document.write ("---------- Sorted" + "<BR>")
for ( i=0; i < bySurnameList.length; i++){
document.write (bySurnameList[i] + "<BR>")
}
document.write ("---------- End" + "<BR>")
Использование специальных символов для проверки ввода
В следующем примере пользователь вводит номер телефона. Когда пользователь нажимает Enter, скрипт проверяет правильность ввода. Если номер верен (совпадает с последовательностью символов, специфицированной регулярным выражением), скрипт выводит окно, подтверждающее номер. Если номер введён неправильно, скрипт выводит окно, сообщающее пользователю, что номер введён неправильно.
Регулярное выражение ищет ноль или открывающих скобок \(?, с последующими тремя цифрам \d{3}, с последующими нуль или одной закрывающих скобок \)?, с последующими одним тире, слэшем или десятичной точкой и, если эти символы найдены, запоминает символы ([-\/\.]), с последующими тремя цифрами \d{3}, с последующим запомненным совпадением тире, слэша или десятичной точки и \1, с последующими четырьмя цифрами \d{4}.
Событие Change активируется, когда пользователь нажатием Enter устанавливает значение RegExp.input.
<SCRIPT LANGUAGE="JavaScript1.2">
re=/\(?\d{3}\)?([-\/\.])\d{3}\1\d{4}/
OK=re.exec()
if(!OK)
window.alert (RegExp.input +
" isn't a phone number with area code!")
else
window.alert ("Thanks, your phone number is " + OK[0])
}
Enter your phone number (with area code) and then press Enter.
<FORM>
<INPUT TYPE=text NAME="Phone" onChange="testInfo(this);">
</FORM>
Оглавление | Назад | Вперёд | Индекс