Awk f примеры. Использование awk в Linux

23.04.2019

AWK(1)

НАЗВАНИЕ
awk - сопоставление с шаблонами и преобразование текста

СИНТАКСИС

Awk [-Fсимвол] [[-f] программа] [аргумент...] [файл...]

ОПИСАНИЕ
Команда awk сопоставляет строки исходных файлов с шаблонами, определенными в программе. Шаблоны можно задать либо непосредственно в командной строке, либо поместить в файл с именем программа и воспользоваться опцией -f. Если шаблоны указаны в командной строке, их следует заключить в одинарные кавычки ("), чтобы избежать интерпретации shell"ом.

Команде awk могут быть переданы аргументы в виде x=... y=... и т.д. (см. ПРИМЕРЫ).

Файлы читаются в том порядке, как они заданы. Если не указано ни одного файла или задано имя -, используется стандартный ввод. Ввод для awk делится на записи, разделяемые специальным символом. По умолчанию это перевод строки; в таком случае awk обрабатывает ввод построчно. Разделитель записей можно изменить, переопределив переменную RS. Каждая запись делится на поля, ограниченные разделителями полей (по умолчанию - пробелами). Этот разделитель можно изменить, переопределив переменную FS или указав флаг -Fсимвол. Поля исходных строк доступны по именам $1, $2,...; $0 - вся входная строка.

Для каждого шаблона из программы может быть задано действие, которое будет произведено со всякой строкой, успешно сопоставленной с шаблоном. Оператор шаблон-действие имеет вид:

Шаблон { действие } Каждая исходная строка сопоставляется с каждым из шаблонов; в случае успеха выполняются указанные действия. После сопоставления со всеми шаблонами вводится следующая строка и процесс сопоставления повторяется. Может быть опущен либо шаблон, либо действие, но не оба вместе. Если для данного шаблона не указаны действия, то строка просто копируется на стандартный вывод. Если для действия не определен шаблон, то оно будет выполняться для каждой входной строки. Строки, которые не удалось сопоставить ни одному шаблону, игнорируются.

Действие есть последовательность операторов. Так как шаблоны и действия могут быть опущены, то, чтобы различать их в программе, последние надо брать в фигурные скобки. Оператор есть одна из конструкций:

If (условие) оператор [ else оператор ] while (условие) оператор for (выражение; условие; выражение) оператор break continue { [ оператор ] ... } переменная = выражение print [ список_выражений ] [> выражение ] printf формат [, список_выражений ] [> выражение ] next # пропустить оставшиеся шаблоны и перейти к следующей строке exit # пропустить оставшиеся строки

Операторы завершаются точкой с запятой, переводом строки или правой скобкой. Пустой список_выражений означает всю строку. Выражения строятся из цепочек символов и чисел с помощью операций +, -, *, /, % и конкатенации (обозначается пробелом). В выражениях также можно использовать операции из языка C: ++, --, +=, -=, *=, /=, %=. Переменные инициализируются пустыми цепочками. Переменные могут быть скалярами, элементами массива (обозначается x[i]) или полями. Индексами массива могут служить любые (не обязательно числовые) цепочки символов, что позволяет реализовать разновидность ассоциативной памяти. Цепочки символов заключаются в двойные кавычки (").

Оператор print выдает свои аргументы на стандартный вывод (или в файл, если присутствует часть >выражение), разделяя их текущим разделителем полей и завершая каждую запись выходным разделителем записей. Оператор printf делает то же самое, но под управлением формата [см. printf(3S) ].

Встроенная функция length возвращает длину своего аргумента, рассматривая его как цепочку символов; если аргумент опущен, то возвращается длина текущей строки. Определены также следующие встроенные функции: exp, log, sqrt и int (int отбрасывает дробную часть своего аргумента). Функция substr(s, m, n) возвращает n-символьную подцепочку цепочки s, начинающуюся с позиции m. Функция sprintf(формат, выражение, выражение,...) преобразует выражения в соответствии с указанным форматом [см. printf(3S) ] и возвращает полученную цепочку символов.

Шаблон - это произвольная логическая комбинация, составленная с помощью операций!, ||, && и скобок из регулярных выражений и выражений сравнения. Регулярные выражения обрамляются символами / [подробнее см. egrep(1) ]. Отдельное регулярное выражение в шаблоне сопоставляется со всей строкой. Регулярные выражения могут входить и в выражения сравнения. Шаблон может состоять из двух шаблонов, разделенных запятой; при этом указанные действия выполняются для всех строк между строкой, удовлетворяющей первому шаблону, и строкой, удовлетворяющей второму шаблону.

Выражение сравнения - это одна из следующих конструкций:

Выражение опер_сопост регулярное_выражение выражение опер_сравн выражение

где опер_сравн - любая из шести операций сравнения языка C, опер_сопост это ~ (содержится) или!~ (не содержится).

Условие - это арифметическое выражение, выражение сравнения или их логическая комбинация.

Для выполнения каких-либо действий перед первой или после последней строки определены специальные шаблоны BEGIN и END. BEGIN должен быть первым шаблоном, END - последним. Например, для использования символа c в качестве разделителя полей можно либо запустить программу с опцией -Fc, либо указать

BEGIN { FS = c } Остальные специальные переменные: NF Количество полей в текущей записи. NR Порядковый номер текущей записи. FILENAME Имя файла, из которого в данный момент производится ввод. OFS Разделитель полей при выводе, по умолчанию пробел. ORS Разделитель записей при выводе, по умолчанию перевод строки. OFMT Формат вывода чисел, по умолчанию %.6g.

ПРИМЕРЫ

Вывести строки файла f1, содержащие более 72 символов: awk "length > 72" f1
Вывести первые два поля файла f2 в обратном порядке: awk "{ print $2, $1 }" f2
Сложить числа, стоящие в первом столбце файла f3, вывести сумму и среднее арифметическое:
В файле prog: { s += $1 } END { print "sum is", s, " average is", s/NR } Командная строка: awk -f prog f3
Вывести поля файла f4 в обратном порядке: awk "{ for (i = NF; i > 0; --i) print $i }" f4
Вывести все строки файла f5, находящиеся между парами start/stop awk "/start/,/stop/" f5
Вывести те строки файла f6, у которых первое поле не совпадает с первым полем предыдущей строки: awk "$1 != prev { print; prev = $1 }" f6
Распечатать файл f7, вставляя после слова "Page" номер страниц, начиная с пятой:
В файле prog: /Page/ { $2 = n++ } { print } Командная строка: awk -f prog n=5 f7

СМ. ТАКЖЕ
egrep(1) , lex(1) , sed(1) .
printf(3S) в Справочнике программиста.

СЮРПРИЗЫ
Входные пробелы не сохраняются при выводе, если поля этой записи подвергались изменениям.

В языке команды awk отсутствуют явные преобразования между цепочками символов и числами. Чтобы выражение трактовалось как число, прибавьте к нему 0; чтобы трактовалось как цепочка - сконкатенируйте его с пустой цепочкой ""

В этой статье мы покажем вам некоторые практические примеры того, как использовать AWK на .

Введение

AWK назван в честь фамилии его авторов: Альфред Ахо, Питер Вайнбергером и Брайан Керниган. AWK очень полезный язык сценариев для обработки текста. Этот язык выполняется в интерпретаторе. Это позволяет пользователю обрабатывать некоторые входные, определять переменные, использовать логические операторы, строки и числовые функции, извлечения данных и создания отформатированных отчетов. Синтаксис AWK очень близок с языку C и является прямым предшественником Perl. Все сценарии AWK могут быть преобразованы в сценарии Perl с использованием утилиты A2P.

Предпосылки

Интерпретатор AWK является стандартным инструментом, найденным на каждом дистрибутиве Linux. Пакет gawk содержит версию AWK с открытым исходным кодом, и в зависимости от дистрибутива Linux он может быть установлен из исходного файла или с помощью пакетов gawk или mawk, включенных в конкретный дистрибутив Linux.

Установка

С правами суперпользователя

Ssh root@IP_Address

Для того, чтобы установить утилиту командной строки AWK на /Fedora или на любую другую на основе RPM распределения Linux, выполните следующую команду:

Yum install gawk

В / , вам нужно вызвать эту команду, чтобы установить Gawk:

Apt-get install gawk

Примеры команды AWK

Простые команды awk могут быть легко запущены из командной строки, а для более сложных задач должны быть записаны в виде сценариев awk в файл. Ниже перечислены некоторые полезные примеры команд awk и исполняемых скриптов.

Вы можете использовать команду AWK для печати только определенных столбцов из поля ввода. Например, с помощью команды приведенной ниже вы можете узнать список IP-адресов, которые подключены к серверу:

Netstat -anp|grep tcp|awk "{print $5}"| cut -d: -f1 | sort | uniq -c | sort -n

Это очень полезно, если вы расследуете, находиться ли ваш сервер под атакой DoS или DDoS.

В следующем примере мы используем AWK для поиска конкретного шаблона в определенных столбцах и делаем какое-то действие, на основе результата:

Exim -bpr | grep frozen | awk {"print $3"} | xargs exim -Mrm

Выше команда удалит все замороженные сообщения электронной почты из почтовой очереди Exim.

AWK часто используется для выполнения полезной и практической обработки и манипуляции текста. Например, мы можем использовать AWK для удаления дубликатов в текстовом файле без сортировки:

Awk "!x[$0]++" file-with-duplicates > new-file-without-duplicates

Следующая команда напечатает пять случайных чисел от 0 до 999:

Awk "BEGIN { for (i = 1; i <= 5; i++) print int(1000 * rand()) }"

Используйте следующую команду, чтобы подсчитать количество строк в файле с именем «sample_file»:

Awk "END { print NR }" sample_file

Следующая команда выведет все строки в файле «sample_file», которые содержат строки, начинающиеся с ‘ A ‘ или ‘a’, за которыми следует ‘ re’:

Awk "/re/{print}" /opt/sample_file

Вы можете использовать команду AWK для более сложных операций. Если ваш веб-сайт работает довольно медленно, вы можете использовать следующую команду, чтобы проверить, есть ли какая-то проблема с диском I/O (и/или сети, в некоторых редких случаях):

Tac /proc/stat | awk "/^btime/ {up=systime()-$2;print "up " up/86400 "d"}; /^cpu / {print "user " $2/up "%, nice " $3/up "%, sys " $4/up "%, idle " $5/up "%, iowait " $6/up "%, steal " $9/up "%\niowait/used " $6 / ($2+$3+$4) ", steal/used " $9 / ($2+$3+$4) }"

IOWAIT означает, как долго процессы блокируются занятые вводом/выводом, в основном дискового хранения или, возможно, сети. STEAL означает, как долго процессы блокируются удачей CPU Time slice на сервере. Выше iowait на время процессора пользователя (=USER + NICE + SYSTEM) показывает занят ввода / вывода, выше украсть просматривается показывает занят CPU.

Следующий сценарий использует простую команду awk, которая выполняет поиск во входном файле ‘/etc/passwd ‘ и предоставляет вывод с именем пользователя, за которым следует дата и время последнего входа:

Vi login-check #!/bin/bash for user in `awk -F: "{print $1}" /etc/passwd` do echo -n "$user: " finger $user | grep Last if [ $? != 0 ]; then echo fi done

Сделайте скрипт исполняемым:

Chmod 755 login-check

Выполните скрипт:

./login-check

Вы должны состоянии увидеть учетные записи пользователей, доступных на сервере, а затем по дате и времени последнего входа в систему каждого пользователя.

Вывод

Есть некоторые новые языки, такие как Perl и Python, которые могут быть использованы вместо AWK, но использование AWK имеет ряд преимуществ, так как:

AWK очень легко узнать.
AWK может быть использован для решения определенных типов задач быстрее и создавать более эффективные сценарии, чем при использовании других инструментов/языков.
AWK очень удобен при работе с большими файлами, как журналы и т.д., потому что с помощью команды/скрипа AWK вы можете создать отфильтрованный и удобочитаемый отчет.

04.10.2015
16:55

Утилита awk является примером классического приложения Linux для обработки текста. Она весьма универсальна и эффективна, хоть и не предоставляет полноценный язык программирования. Однако будьте уверены, что ее возможностей вполне хватит для решения многих задач автоматизированной обработки текста (особенно при комбинировании с другими консольными утилитами).

Способы запуска awk-программ

Если awk -программа достаточно простая и короткая, то ее код можно набрать прямо в консоли:

Awk "< код awk-программы >" < имя_файла_для_обработки >

В качестве входных данных для awk можно использовать не только текстовые файлы, но и вывод в стандартный поток других приложений:

< некое_приложение > | awk "< код awk-программы >"

В случае, когда код awk -программы достаточно объемный или должен быть сохранен для повторного использования, его можно вызывать из файла с ключом -f:

Awk -f < имя_файла_с_кодом_awk_программы > < имя_файла_для_обработки >

Для проведения экспериментов используем файл test.cpp , на котором будем проверять результаты работы awk - программ:

#include #include #include void test1(); int test2(); // Комментарий в стиле С для функции main() int main(int argc, char** argv) { std::cout << "Hello, world!" << std::endl; for(int i = 0; i < 10; ++i) { std::cout << i << std::endl; } return 0; } // Комментарий в стиле С для функции test1() void test1() { std::cout << "Hello, test1!" << std::endl; } // Комментарий в стиле С для функции test2() int test2() { std::cout << "Hello, test2!" << std::endl; }

Фильтрация строк с помощью awk

В первую очередь awk позволяет отбирать строки из текста на основе регулярных выражений и некоторых числовых условий.

Отбор строк, соответствующих регулярному выражению

Например, чтобы получить все строки файла test.cpp , содержащие директиву препроцессора #include , воспользуемся следующей командой:

Awk "/^#\s*include/" test.cpp

Регулярное выражение записывается между двумя символами / . В результате получим:

#include #include #include

Отбор строк, НЕ соответствующих регулярному выражению

Чтобы оставить все строки, которые не соответствуют регулярному выражению, воспользуйтесь командой из предыдущего подраздела и поставьте в начало awk -кода восклицательный знак. Например, так мы исключим все закомментированные строки:

Awk "! /^[/]{2}.*/" test.cpp

Вот что осталось:

#include #include #include void test1(); int test2(); int main(int argc, char** argv) { std::cout << "Hello, world!" << std::endl; for(int i = 0; i < 10; ++i) { std::cout << i << std::endl; } return 0; } void test1() { std::cout << "Hello, test1!" << std::endl; } int test2() { std::cout << "Hello, test2!" << std::endl; }

Отбор строк из заданного диапазона

Определить диапазон строк для вывода на экран можно с помощью двух регулярных выражений, записанных через запятую. В качестве примера найдем определение всех функций, возвращающих int:

Awk "/^int .*(.*) {/, /^}/" test.cpp

Соответствующий результат:

Int main(int argc, char** argv) { std::cout << "Hello, world!" << std::endl; for(int i = 0; i < 10; ++i) { std::cout << i << std::endl; } return 0; } int test2() { std::cout << "Hello, test2!" << std::endl; }

Комбинирование условий фильтрации

Для проверки строк сразу по нескольким условиям используйте операторы && (И) и || (ИЛИ) .

Следующая команда выводит все комментарии, которые не содержат main:

Awk "/[/]{2}.*/ && ! /main/" test.cpp

В итоге имеем:

// Комментарий в стиле С для функции test1() // Комментарий в стиле С для функции test2()

Ранее мы искали диапазон строк по двум регулярным выражениям, но если номера строк, которые нужно вывести, известные заранее, то все упрощается:

Awk "4 < NR && NR < 7" test.cpp

NR - переменная awk , которая определяет номер строки. Таким образом, представленный код выводит 5-ую и 6-ую строки:

Void test1(); int test2();

Отбор строк по условиям относительно отдельных слов

Awk может фильтровать текст не только по строкам, но и по отдельным словам. На i -ое слово в строке можно сослаться с помощью $i . Нумерация начинается с единицы, а $0 определяет содержимое всей строки. Количество слов в строке определяется с помощью переменной NF , поэтому $NF указывает на последнее слово. Например, найдем строки, первым словом которых является int или void:

Awk "$1 == "int" || $1 == "void"" test.cpp

Соответствующий вывод на консоль:

Void test1(); int test2(); int main(int argc, char** argv) { void test1() { int test2() {

Однако проще использовать проверку по регулярному выражению для слова. Для этого в awk предусмотрен специальный оператор ~ , который нужно поставить между переменной, указывающей на слово, и регулярным выражением. В качестве примера перепишем предыдущую команду в более компактном виде:

Awk "$1 ~ /int|void/" test.cpp

Отбор строк на основе числовых характеристик

В awk доступны арифметические операторы языка C, что открывает свободу действий. Пример ниже выводит все четные строки (NR - номер строки):

Awk "NR % 2 == 0" test.cpp

Соответствующий вывод:

#include int test2(); // Комментарий в стиле С для функции main() std::cout << "Hello, world!" << std::endl; for(int i = 0; i < 10; ++i) { } return 0; void test1() { } // Комментарий в стиле С для функции test2() std::cout << "Hello, test2!" << std::endl;

Следующая awk -программа выводит все строки, у которых длина 1-ого слова равна трем:

Awk "length($1) == 3" test.cpp

В результате получаем:

Int test2(); int main(int argc, char** argv) { int test2() {

Awk "NF == 2" test.cpp

И соответствующий вывод:

#include #include #include void test1(); int test2(); return 0;

Работа со строками в awk

Как вы могли убедиться, awk обладает неплохим набором функций для фильтрации строк текста. Однако для этих строк еще можно выполнять различные преобразования. Команды для работы со строками должны быть обернуты в фигурные скобки { ... } . Код в скобках последовательно вызывается для каждой строки обрабатываемого текста.

Форматированный вывод

В awk имеется прямой аналог функции printf() языка C . В качестве примера выведем в начале каждой строки ее номер:

Awk "{ printf "%-2d %s\n", NR, $0 }" test.cpp

Вот что получили:

1 #include 2 #include 3 #include 4 5 void test1(); 6 int test2(); 7 8 // Комментарий в стиле С для функции main() 9 int main(int argc, char** argv) { 10 std::cout << "Hello, world!" << std::endl; 11 12 for(int i = 0; i < 10; ++i) { 13 std::cout << i << std::endl; 14 } 15 16 return 0; 17 } 18 19 // Комментарий в стиле С для функции test1() 20 void test1() { 21 std::cout << "Hello, test1!" << std::endl; 22 } 23 24 // Комментарий в стиле С для функции test2() 25 int test2() { 26 std::cout << "Hello, test2!" << std::endl; 27 }

Функции преобразования

Кроме printf() есть в awk и другие функции. Например, print() и toupper() :

Awk "{ print toupper($0) }" test.cpp

Соответствующий результат:

#INCLUDE #INCLUDE #INCLUDE VOID TEST1(); INT TEST2(); // КОММЕНТАРИЙ В СТИЛЕ С ДЛЯ ФУНКЦИИ MAIN() INT MAIN(INT ARGC, CHAR** ARGV) { STD::COUT << "HELLO, WORLD!" << STD::ENDL; FOR(INT I = 0; I < 10; ++I) { STD::COUT << I << STD::ENDL; } RETURN 0; } // КОММЕНТАРИЙ В СТИЛЕ С ДЛЯ ФУНКЦИИ TEST1() VOID TEST1() { STD::COUT << "HELLO, TEST1!" << STD::ENDL; } // КОММЕНТАРИЙ В СТИЛЕ С ДЛЯ ФУНКЦИИ TEST2() INT TEST2() { STD::COUT << "HELLO, TEST2!" << STD::ENDL; }

Условные конструкции

В awk -программах доступны операторы if-else . Например, следующий код выводит без изменения строки, у которых на 1-ой позиции стоит int , а на последней - { , иначе на консоль отправляется --- :

Awk " { if($1 == "int" && $NF == "{") print; else print "---" }" test.cpp

Выполнение кода приводит к выводу следующего:

Int main(int argc, char** argv) { --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- int test2() { --- ---

Переменные

Доступны в awk -программах и переменные, которые не требуется предварительно объявлять. Следующий код для подсчета количества строк и слов в тексте поместим в файл stat.awk:

{ lineCount++; wordCount += NF } END { printf "line count: %d, word count: %d\n", lineCount, wordCount }

Тогда его вызов осуществляется следующим образом:

Awk -f stat.awk test.cpp

Результат выполнения:

Line count: 27, word count: 88

Фильтр END указывает, что код в скобках после него должен выполняться только после прохода всех строк. Доступен в awk и фильтр BEGIN , поэтому в более общем случае программа принимает вид:

BEGIN { Вызывается до начала прохода по строкам } { Вызывается для каждой строки после секции BEGIN, но до секции END } END { Вызывается после завершения прохода по строкам }

Wc -lw test.cpp

Циклы

В awk -программах вам также доступны циклы for и while в стиле C . Для примера выведем все строки в обратном порядке. Создадим файл reverse.awk следующего содержимого:

{ for(i = NF; i > 0; --i) printf "%s ", $i; printf "\n" }

Вызовем программу следующий образом:

Awk -f reverse.awk test.cpp

В результате слова в каждой строке будут выведены в обратном порядке:

#include #include #include test1(); void test2(); int main() функции для С стиле в Комментарий // {) argv char** argc, int main(int std::endl; << world!" "Hello, << std::cout {) ++i 10; < i 0; = i int for(std::endl; << i << std::cout } 0; return } test1() функции для С стиле в Комментарий // { test1() void std::endl; << test1!" "Hello, << std::cout } test2() функции для С стиле в Комментарий // { test2() int std::endl; << test2!" "Hello, << std::cout }

Нестандартный разделитель слов

По умолчанию awk в качестве разделителя слов использует пробельные символы, однако такое поведение можно изменить. Для этого воспользуйтесь ключом -F , после которого укажите строку, определяющую разделитель. Например, следующая программа выводит название группы и ее пользователей (если в группе есть пользователи) из файла /etc/group , применяя в качестве разделителя символ двоеточия:

Awk -F":" "{ if($4) printf "%15s: %s\n", $1, $4 }" /etc/group

Комбинирование фильтров и команд печати

Все рассмотренные ранее фильтры можно использовать совместно с командами обработки строк. Достаточно записать ограничения перед фигурными скобками. Ниже представлен пример для вывода первых 9 строк вывода команды ps , содержащей информацию о пользователе, идентификаторе процесса и имени команды:

Ps axu | awk "NR < 10 { print $1, $2, $NF }"

После запуска увидим:

USER PID COMMAND root 1 /sbin/init root 2 root 3 root 5 root 7 root 8 root 9 root 10

Основное назначение программы awk - интерпретация языка программирования awk, который позволяет быстро создать программу для анализа и преобразования текстовых файлов. Типичный awk-сценарий построен по следующей схеме:

шаблон1 {действие1} шаблон2 {действие2} ...

Программа читает входной файл или поток и анализирует каждую строку на соответствие шаблону. Если есть соответствие, производятся действия, описанные в фигурных скобках. Если шаблон отстутствует, действие применяется к каждой строке. Если отсутствует действие, строка выводится на стандартный вывод. Действие может состоять из последовательности операторов, разделяемых точкой с запятой.

Печать тертьего поля (колонки, слова) каждой строки:

Код:

Ls -l | awk "{print($3)}"

Печать двух указанных полей каждой строки:

Код:

Ls -l | awk "{print($9,$1)}"

Печать полей с пробелами:

Код:

Ls -l | awk "{print($9," ",$1)}"

Чтобы указать разделитель полей, отличный от пробела, следует использовать параметр -F. В данном случае разделителем полей будет двоеточие:

Код:

Awk -F: "{print($2)}" $filenameForProcessing

Чтобы использовать скрипт awk, сохранённый в файле:

Код:

Awk -f $scriptFilename $filenameForProcessing

Файл скрипта awk можно сделать исполняемым и указать в нём соответствующий ша-банг. Такой скрипт будет принимать в виде параметра файл для обработки:

Код:

#!/usr/bin/awk -f

Переменные языка awk создаются в момент первого обращения к ним и могут содержать целые числа, числа с плавающей запятой или строки, что определяется контекстом. В специальной переменной RS хранится значение разделителя записей (по умолчанию - \n), а в переменной FS - значение разделителя полей (по умолчанию - пробел). Если какая-либо из этих переменныех содержит более, чем один символ, это значение интерпретируертся как регулярное выражение. Язык awk содержит ряд встроенных строковых и математических функций, условные операторы и операторы циклов, поддерживает массивы и определение пользовательских функций. В интернете можно найти обширные руководства по языку awk, а также автоматические трансляторы ("переводчики") скриптов awk на другие языки (например, Си или Перл).

Специальными видами шаблонов являются BEGIN и END. Они не проверяются на соответствие с записями входного потока. Действие по шаблону BEGIN будет выполнено один раз до начала чтения входных данных, а действие по шаблону END - один раз после прочтения входных данных.

Пример удаления соседних дубликатов строк в файле:

Код:

Filename=test.txt
res=`awk "BEGIN {PREV=""} {if ($0 != PREV) {print $0; PREV=$0}}" $filename`
echo "$res" > $filename

Перед началом работы мы устанавливаем переменную PREV равной пустой строке. Остальная часть скрипта awk не имеет шаблона и поэтому выполняется для любой строки. Если текущая строка не равна PREV, она выводится, а затем записывается в переменную PREV. Таким образом, при обработке каждой строки, если она окажется равна предыдущей, она выведена не будет.

Пример конкатенации полей:

Код:

Awk "{a = $3 $4; print a}" $filename

Пример суммирования значений полей:

Код:

Awk "{a = $3+$4; print a}" $filename

Понятие "селектор" следует понимать, как расширение понятия "шаблон". Там, где в структуре команды указан шаблон, в общем случае может стоять любой селектор.

Проверка третьего поля на соответствие регулярному выражению и печать всей строки в случае успеха: