Perl

Perl ist eine freie, plattformunabhängige und interpretierte Programmiersprache.

Der Linguist Larry Wall entwarf sie 1987 als Synthese aus C, den UNIX-Befehlen und anderen Einflüssen. Ursprünglich als Werkzeug zur System- und Netzwerkadministration vorgesehen, hat Perl auch bei der Entwicklung von Webanwendungen und in der Bioinformatik weite Verbreitung gefunden. Hauptziele sind eine schnelle Problemlösung und größtmögliche Freiheit für Programmierer. Der Umgang mit Texten und viele frei verfügbare Module sind Stärken der Sprache.

Der Name Perl bezieht sich auf ein Zitat aus dem Matthäus-Evangelium [13,46], wo Jesus das Himmelreich mit dem Bild eines Händlers beschreibt, der seinen gesamten Besitz verkaufen will, um eine kostbare Perle zu erwerben. Später wurde der Name von Pearl in Perl geändert, da es bereits eine Sprache namens Pearl Backronyme Practical Extraction and Report Language und Pathologically Eclectic Rubbish Lister. Die Schreibweise „Perl“ bezeichnet die Sprache, „perl“ dagegen das Programm, das diese Sprache interpretiert..


Geschichte

Entstehung

Larry Wall war Angestellter bei Unisys, wo er ab März 1987 daran beteiligt war, unter dem Namen blacker ein sicheres Netzwerk für die NSA zu entwickeln. Er erhielt mehrere Aufträge, Werkzeuge zur Fernwartung und Überwachung der entstehenden Software zu schaffen. Eine Hauptaufgabe war dabei, übersichtliche Berichte aus verstreuten Logdateien zu erzeugen. Da die vorhandenen Sprachen und Werkzeuge ihm dafür zu umständlich erschienen, entwickelte er mit Hilfe seines damaligen Teamkollegen Daniel Faigin und seines Schwagers Mark Biggar schrittweise eine eigene Sprache, um seine Aufgaben zu lösen.

Perl 1–4

Am 18. Dezember 1987 publizierte er sie im Usenet als Perl 1.0. Damals war Perl wirklich noch, wie der Name sagt, eine bessere Shell, die gut mit Texten und Dateien umgehen, andere Programme steuern und gut lesbare Berichte ausgeben konnte.

Bereits am 5. Juni im Jahr darauf erschien die Version 2.0 mit grunderneuerter und erweiterter Regex-Engine und einigen weiteren Verbesserungen.

Am 18. Oktober 1989 folgte Perl 3, das auch mit binären Daten umgehen konnte und erstmals auch unter der GPL veröffentlicht wurde.

Fast unverändert war es ab dem 21. März 1991 als Perl 4 erhältlich, jedoch nun wahlweise unter der GPL oder der von Larry entwickelten Artistic License. Der eigentliche Grund für die neue Version war aber das gleichzeitig erschienene Kamelbuch, das als Referenz für den aktuellen, als Version 4 markierten Stand, veröffentlicht wurde. (Bis dahin waren die seit Perl 1 verfügbaren UNIX-man-pages die einzige verfügbare Perl-Dokumentation.)

Das Buch war von Larry Wall mitverfasst und erschien im O'Reilly Verlag, der mit diesem und weiteren Titeln als renommierter Fachverlag für Programmierer bekannt wurde. Perl-Bücher von O'Reilly wurden die maßgeblichen Perl-Publikationen, was sich erst im neuen Jahrtausend etwas relativierte. Der Verlag betreibt auch unter der Internetadresse perl.com das meistbesuchte Online-Magazin für Perl-Programmierung und veranstaltet mit der TPC (The Perl Conference - heute OSCON) die größte Perl-Konferenz. O'Reilly profitierte von Perls wachsender Popularität, und im Gegenzug bezahlte Tim O'Reilly seinem Freund Larry Wall in den folgenden Jahren ein festes Gehalt, der sich so ohne weitere Pflichten oder Vorgaben der Weiterentwicklung der Sprache widmen konnte. 1993 als Perl die Version 4.036 erreichte, brach Larry Wall die Weiterentwicklung ab, um mit Perl 5 eine vollständige Neuentwicklung zu beginnen.

Perl 5

Dieser bisher größte Schritt für Perl war am 18. Oktober 1994 mit Perl 5 geschafft. Neben der Möglichkeit, mit POD die Dokumentation in den Quelltext einzufügen, und vielen weiteren wichtigen Neuerungen konnte man nun die Sprache durch separate Module erweitern, was im folgenden Jahr zur Entstehung des CPAN führte. Dieses große Archiv frei erhältlicher Module ist heute selbst ein wichtiger Grund, Perl einzusetzen.

Mit Version 5 wurde es auch möglich, objektorientiert in Perl zu programmieren, wobei die objektorientierte Syntax geschickt aus vorhandenen Sprachelementen (Packages, Package-Funktionen und Package-Variablen sowie den (ebenfalls neuen) Referenzen) abgeleitet wurde, lediglich die Funktion bless() zum Anlegen eines Objektes und der Pfeil-Operator (->) zum Aufruf von Methoden kamen hinzu. In der Anfangszeit von Perl 5 entstand mit XS ein Satz von C-Makros, der es ermöglicht, Perl mit anderen Sprachen zu erweitern oder mit Perl-Programmen beliebige Software oder Hardware anzusprechen.

Seit der Veröffentlichung von Perl 5 beteiligte sich Larry Wall kaum noch an der Entwicklung der Sprache. Dies übernahmen freiwillig Perl-begeisterte Programmierer, die sogenannten Perl 5 Porter, die über die p5p-Mailingliste kommunizieren, aber auch zunehmend über einen eigenen Bug- und Request-Tracker über Fehlerbehebungen und neue Funktionen der Sprache entscheiden. Dabei übernimmt je Version ein sogenannter Pumpking die Leitung. Der Begriff Perl Porter enstammt der ursprünglichen Aufgbabe der p5p-Liste: die Portierung von Perl auf andere Betriebsysteme zu koordinieren.

Aktuelle Versionen

Die aktuelle Weiterentwicklung findet in den von Rafaël Garcia-Suarez geleiteten Entwicklerversionen 5.9.x statt. Für den täglichen Gebrauch werden derzeit die Versionsreihen 5.6.x und 5.8.x gepflegt. Die aktuelle, von Nicholas Clark betreute Version 5.8.7 ist weitestgehend befreit von den Problemen mit Unicode und Threads, das von Gurusamy Sarathy geleitete 5.6.2 ist wegen kleiner Inkompatibilitäten aber immer noch eine Alternative. 5.004 und 5.005 sind veraltet, wichtige Module funktionieren mit ihnen aber weiterhin. Die nächste Benutzerversion 5.10.0 wird von Hugo van der Sanden vorbereitet.

Perl 6

Am 18. Juli 2000 auf der TPC 4 wurde Perl 6 als die Version der Perl-Gemeinschaft angekündigt. Nachdem Larry Wall mehrere hundert Vorschläge auswertete und thematisch sortierte, schrieb er je Thema einen Überblick seiner Vorstellungen (Apocalypse genannt), der nach Diskussionen in den Mailinglisten von Damian Conway zu einer detaillierten Exegese formuliert wird. Dabei wird die Sprache entrümpelt und mit neuen Fähigkeiten ausgestattet, unter anderem wurde die Objektorientierung komplett neu gestaltet und eine neue Grammar-Engine entwickelt. Diese Neugestaltung der Syntax ist weitestgehend abgeschlossen.

Als Interpreter für Perl 6 ist eine neue registerbasierte Virtuelle Maschine namens Parrot in Entwicklung, die neben Perl 6 noch viele andere Sprachen kompilieren (in Bytecode übersetzen) und ausführen können soll. Sie wurde von Chip Salzenberg und Dan Sugalski entworfen und wird derzeit von Chip und Leo(pold) Tötsch betreut.

Nach der Freigabe von Perl 6 und Parrot soll Perl 5 aber noch lange gewartet werden. Mit einem Parser namens Ponie, den Arthur Bergman derzeit entwickelt, soll Perl 5 auch auf Parrot ausführbar sein.

Autrijus Tang entwickelt seit Anfang Februar 2005 einen alternativen Perl 6-Compiler namens Pugs in der Sprache Haskell. Die Entwicklung geht wesentlich schneller als beim Parrot-Projekt voran und ermöglicht es, wie geplant den Perl 6-Parser für Parrot in Perl 6 zu schreiben.


Merkmale

Ursprung

  • Geistig
    Es ist naheliegend, dass sich Perls Eigenschaften aus den Gedanken und Überzeugungen ihres Begründers ergeben, der sich stark zum Christentum bekennt, Linguistik studierte, als Administrator und Programmierer arbeitete und auch als Humorist und Autor bekannt wurde. Aus seiner christlichen Überzeugung heraus wollte Larry Wall ein Werkzeug schaffen, das möglichst vielen Menschen als bescheidener Diener die Arbeit erleichtert, sie in ihrer Kreativität unterstützt und sie in ihrer von Gott geschaffenen Einzigartigkeit ernst nimmt. Dafür entwarf er Perl nah an den menschlichen Sprachgewohnheiten, was sich in minimalen Voraussetzungen für Einsteiger, einer starken Kombinierbarkeit der Sprachelemente und einem reichen Wortschatz ausdrückt, der auch verschiedene Befehle oder Wendungen mit gleicher Bedeutung zulässt. Wall sieht darin die Bedürfnisse eines Praktikers nach Freiheit und intuitivem Ausdruck verwirklicht.

  • Praktisch
    Gemäß dieses praktischen Ansatzes borgte sich Perl seinen Wortschatz und seine logischen Strukturen von den in den 1980er Jahren unter Unix verbreiteten Sprachen und Werkzeugen, was das Erlernen vereinfachte, aber auch die UNIX-Philosophie umkehrte.
    Unix und seine Systembefehle waren kompiliert und meist in C geschrieben. Interpretierte Shell-Scripte kombinierten schnell und einfach die Befehle, die untereinander ihre Ergebnisse durch Pipes weiterreichen konnten. Diese Befehle waren logische Einheiten und sollten genau eine Aufgabe beherrschen („Do one thing and do it well“/„Mach eine Sache und mach sie gut“). Perl verletzt diese Philosophie, indem es diese Befehle zum Bestandteil der Sprache macht und die vorhandenen Werkzeuge übergeht.
    Dies wurde notwendig, weil Shell-Scripte für komplexe Aufgaben ungeeignet waren, da Pipes Nadelöhre für den Datenaustausch sind, Shell-Scripte nur eingeschränkt Daten zwischenspeichern können und ihr Ablauf sehr einfach ist. Andererseits sind UNIX-Werkzeuge sehr mächtig und konnten bis zu ca. 30 Zeilen C-Quelltext ersetzen.
    Um die Vorteile beider Welten zu nutzen, kombinierte Larry C mit Werkzeugen wie sed, awk, grep und sort und Eigenschaften der Bourne Shell, in geringem Maße auch Pascal und BASIC, sowie eigenen Ideen. Diese Fusion ermöglichte kurze, mächtige Programme, die man schnell schreiben und jederzeit auch testen konnte, ohne sie kompilieren zu müssen, was die Entwicklung ebenfalls beschleunigte. Später wurden weitere Fähigkeiten von Sprachen wie LISP, Smalltalk, Python oder Ruby „importiert“.

Prinzipien

Perl wurde für den praktischen Einsatz entwickelt und konzentriert sich daher auf einfache Programmierbarkeit, Vollständigkeit, Effizienz und Anpassbarkeit. Diese Philosophie drückt sich in den folgenden Schlagworten oder Phrasen aus, die meist von Larry Wall stammen.

Mehrere Wege

Das bekannteste und grundlegendste Perl-Motto ist „There is more than one way to do it“ (kurz: TIMTOWTDI, gesprochen „Tim Today“). Zu deutsch: „Es gibt mehr als einen Weg, etwas zu tun“. Perl macht im Gegensatz zu Sprachen wie Python weniger Vorgaben und bietet absichtlich für jedes Problem mehrere Formulierungs- und Lösungsmöglichkeiten. Zum Beispiel kann man logische Operatoren als || und && (wie in C) oder (mit Bedeutungsnuancen) als or und and (wie in Pascal) schreiben; aber auch zahlreiche Befehle mit einem sich überschneidenden Funktionsumfang wie map und for erlauben verschiedene Formulierungen für den gleichen Sachverhalt. Einige Befehle wie der Diamant-Operator (<>) bieten verkürzte Schreibweisen für bereits vorhandene Funktionalität.

Dass Vielfalt eine erklärte Tugend der Perl-Kultur ist, wird auch im CPAN sichtbar, wo oft mehrere Module einen sehr ähnlichen Zweck erfüllen. Dies alles erlaubt dem Programmierer nicht nur das Schreiben maßgeschneiderter Software, sondern bietet auch die Freiheit, persönlichen Vorlieben nachzugehen, was für manche ein wichtiger Grund ist, sich für Perl zu entscheiden.

Eine weiteres Schlagwort, das man auch als Erweiterung von TIMTOWTDI sehen kann, bezeichnet Perl als die erste postmoderne Programmiersprache. Damit ist gemeint, dass Perl verschiedene Paradigmen vereint und es dem Benutzer frei steht, strukturierte, objektorientierte, funktionale und imperative Sprachmerkmale zu kombinieren.

Einfach und möglich

Der andere wichtige Merksatz ist Perl makes easy jobs easy and hard jobs possible., was zu deutsch bedeutet Halte die einfachen Arbeiten einfach und mach (die Lösung der) schwierige(n) Aufgaben möglich. Dies beinhaltet zum ersten das Ziel, gängige Aufgaben möglichst mit „fertigen Lösungen“ zu vereinfachen. Zum Beispiel prüft -e '<Dateiname>' die Existenz einer Datei. Zweitens versucht Perl vollständig zu sein und für jedes Problem mindestens die Grundlagen bereitzustellen, die eine Lösung möglich machen. Das dritte Ziel, die beiden ersten Zielen nicht kollidieren zu lassen, gewinnt mit dem wachsendem Sprachumfang von Perl 6 immer mehr an Bedeutung, wo in Anlehnung an den Huffman-Code die Schreibweisen der am häufigst verwendeten Befehle möglicht kurz gehalten sind, ohne mit der Logik der Schreibweise ähnlicher Befehle zu brechen.

Kontextsensitiv

In Perl gibt es Befehle, die verschiedene Bedeutungen haben, je nachdem, in welchem Zusammenhang sie benutzt werden. Derart kontextsensitiv sind Datenstrukturen wie das Array. Wird es einem anderen Array zugewiesen, wird dessen Inhalt übergeben; ist der Empfänger ein einzelner Wert (Skalar), erhält dieser die Länge des Arrays.

Kritik

Perls Eigenschaften werden oft so verstanden, dass sie dazu einladen, unübersichtlichen Quellcode zu schreiben, manche Kritiker behaupten sogar, Perl sei die einzige Sprache, in der man „write–only“ programmieren könne, dass also ein einmal geschriebenes Programm weder für andere zu verstehen sei, noch für den Autor, wenn er es nach Monaten liest. Tatsächlich bietet Perl viele Möglichkeiten, unleserlichen Code zu produzieren, aber es liegt letztlich am Willen und den Fähigkeiten des Programmierers, Les- und Wartbarkeit zu erreichen. Denn andererseits ermöglicht die gleiche Freiheit es auch, besonders nah am Problem oder am menschlichen Verständnis zu programmieren, was zu einer sonst unerreichbaren Lesbarkeit führen kann.

Weiterhin wird Perl vorgeworfen, dass es die UNIX-Philosophie verletzt (siehe dazu den Abschnitt Praktischer Ursprung).

Technische Merkmale

Der Perl-Interpreter selbst ist ein in C geschriebenes Programm, das auf annähernd jedem Betriebssystem kompilierbar ist, vorkompilierte Versionen auf selten verwendeten Systemen wie z. B. BeOS oder OS/2 sind jedoch nicht immer auf dem neuesten Stand. Der Quellcode umfasst ca. 50 MB und enthält auch Perl-Skripte, die Funktion von makefiles übernehmen. Aktuell ist das kompilierte Programm ca. 850 KB groß, was aber je nach Betriebssystem, verwendetem Compiler und Bibliotheken variieren kann.

Perlscripte werden in Textdateien mit beliebigem Zeilentrennzeichen gespeichert. Beim Start eines Scriptes wird es vom Perl-Interpreter eingelesen, in Bytecode umgewandelt und dieser dann ausgeführt. Der im Interpreter integrierte Parser ist eine angepasste Version von GNU Bison.

Verbreitung

Zu Beginn war Perl ein UNIX-Werkzeug, das besonders auf die Verarbeitung von Textdateien, Steuerung anderer Programme sowie zur Ausgabe von Berichten ausgelegt war. Dafür wird es bis heute, nicht nur von Systemadministratoren, auf allen verbreiteten Betriebssystemen eingesetzt. Dabei bekam Perl auch den Ruf einer glue language, weil relativ schnell geschriebene Perl-Scripte inkompatible Software verbinden können.

Mit der Verbreitung des World Wide Web wurde Perl zunehmend benutzt, um Webserver, Datenbanken und weitere Programme und Daten zu verbinden und die Ergebnisse in Form von HTML-Seiten auszugeben. Der Perl-Interpreter wird dabei über CGI oder mod_perl von dem Webserver angesprochen. Auch wenn für diese serverseitige Skript-Programmierung PHP mittlerweile populärer wurde, wird Perl weiterhin von vielen großen und kleinen Seiten und Internetdiensten wie Amazon.com, slashdot.org, MovableType und LiveJournal verwendet und wurde deshalb auch scherzhaft als das Klebeband bezeichnet, welches das Internet zusammenhält. In Perl entstanden auch Frameworks wie Mason, Embperl, Maypole und Catalyst die eine sehr schnelle Entwicklung komplexer Internetseiten erlauben. Wichtige Perl-Programme im E-Mail Bereich sind SpamAssassin (Spam-Filter), PopFile und open webmail.

Weitere Hauptanwendungsfelder sind das Data-Munging und die Bioinformatik, wo Perl seit etwa 1995 die am häufigsten verwendete Sprache ist. Gründe hierfür sind wieder die Fähigkeit Informationen in Textform zu verarbeiten und die Flexibilität und Offenheit der Sprache, die es der internationalen Forschergemeinde erlauben, trotz unterschiedlicher Standards der Institute zusammenzuarbeiten.

Auch Desktop-Anwendungen und Spiele wie Frozen Bubble können sinnvollerweise in Perl geschrieben werden, weil die Personal Computer mittlerweile schnell genug sind, solche Anwendungen auszuführen und diese schneller entwickelt sind als mit Hilfe kompilierter Sprachen.

Bereiche, in denen Skriptsprachen wie Perl nicht eingesetzt werden können, sind Anwendungen mit hoher Anforderung an Hardware-Nähe und Geschwindigkeit wie z. B. Treiber oder Codecs.

Logos

Als Maskottchen von Perl dient ein Dromedar. Es zierte erstmals den Umschlag des Referenzwerkes Programming Perl, welches im O'Reilly Verlag herausgegeben wird und als das Kamel-Buch bekannt ist. In einem Interview sagte Tim O'Reilly scherzhaft als Begründung: Perl ist hässlich und kommt über lange Strecken ohne Wasser aus. Das Dromedar ist auf dem Programming Republic of Perl Emblem zu sehen, das oft als offizielles Perl-Logo angesehen wird und dessen nichtkommerziellen Gebrauch O'Reilly gestattet. Andere im Zusammenhang mit Perl benutzte Logos sind neben Perlen die aufgeschnittene Zwiebel (Erkennungszeichen der Perl Foundation) und der Komodowaran, der die weit verbreitete Perl-Distribution von Active State schmückt.


Syntax

Freies Format

Perl erlaubt freies Formatieren des Quellcodes. Das bedeutet, dass Einrückungen und zusätzliche Leerzeichen syntaktisch unerheblich sind und auch Zeilenumbrüche nach Belieben eingefügt werden können. Logische Konsequenz dieser Freiheit ist die Notwendigkeit, jeden Befehl mit einem Semikolon abzuschließen.

Variablen

Charakteristisch für Perl ist, dass Variablen durch ein Prefix (auch Sigil genannt) gekennzeichnet werden, das ihren Datentyp anzeigt. Hier einige Beispiele:

$ für Skalare: $scalar
@ für Arrays: @array
% für Hashes/assoziative Arrays: %hash
& für Funktionen (oft optional): &function
* für Typeglobs: *all

Datei-Handles, Verzeichnis-Handles und Formate besitzen keinen Prefix, sind aber ebenfalls eigenständige Datentypen. Jeder Datentyp hat in Perl seinen eigenen Namensraum.

Basisdatentypen in Perl sind skalare Variablen, Arrays und Hashes (assoziative Arrays).

  • Skalare sind typlose Variablen für einzelne Werte, es können Strings, Zahlen oder Referenzen auf andere Daten oder Funktionen in ihnen gespeichert sein.

  • Arrays fassen mehrere Skalare unter einem Variablennamen zusammen. Arrayeinträge haben einen Index (die Zählung beginnt bei 0).

  • Hashes fassen ebenfalls Skalare zusammen, allerdings werden hier Einzelwerte (Values) nicht über numerische Indizes, sondern mit Hilfe zugehöriger Keys (alphanumerische Schlüssel) eindeutig identifiziert und angesprochen.

Hashes und Arrays lassen sich einander zuweisen, wobei Hashes als Listen von Key/Value-Paaren betrachtet werden. Daten verschiedenen Typs lassen sich beliebig zu neuen Datenstrukturen kombinieren, beispielsweise sind Hashes denkbar, die neben Arrays auch einzelne Skalare enthalten.

Package-Variablen werden automatisch erstellt, sobald sie das erste mal verwendet werden.

undef(<variable>) gibt die angegebene Variable wieder frei.

Kontrollstrukturen

Die grundlegenden Kontrollstrukturen unterscheiden sich kaum von denen in C, Java und JavaScript.

Bedingte Ausführung

if funktioniert wie aus C bekannt; unless, eine Besonderheit von Perl, ist eine Schreibweise für if (!(<Bedingung>)). Eine Case- oder Switch-Anweisung gibt es in Perl 5 nicht, aber den ternären Operator ? :, der mit do {if (<Bedingung>) {<Anweisungen>} else {<Anweisungen>}} umschrieben werden könnte. Die optimierten logischen Operatoren erlauben auch eine bedingte Ausführung. Bei or (bzw. ||) wird der zweite Ausdruck ausgeführt, wenn das Ergebnis des ersten kein wahrer Wert ist, and (bzw. &&) funktioniert analog.

 if     (<Bedingung>) {<Anweisungen>}
[elsif  (<Bedingung>) {<Anweisungen>}]
[else                 {<Anweisungen>}]
 unless (<Bedingung>) {<Anweisungen>}
[else                 {<Anweisungen>}]
<Bedingung> ? <Anweisung 1> : <Anweisung 2>;
<Ausdruck 1> || <Ausdruck 2>;
<Ausdruck 1> && <Ausdruck 2>;

Schleifen

Wie in C iterieren while und for (in der an C angelehnten Variante), solange die Bedingung wahr ist, until, bis sie wahr ist, und foreach iteriert über eine Liste. In Perl 5 sind for und foreach austauschbar.

 [label:] while (<Bedingung>)
              {<Anweisungen>} [continue {<Anweisungen>}]

 [label:] until (<Bedingung>)
              {<Anweisungen>} [continue {<Anweisungen>}]

 [label:] for ([<Startanweisung>]; [<Bedingung>]; [<Updateanweisung>])
              {<Anweisungen>} [continue {<Anweisungen>}]

 [label:] for[each] [[my] $element] (<Liste>)
              {<Anweisungen>} [continue {<Anweisungen>}]

goto springt ungeachtet der Verschachtelung zu einer Schleife, die mit genanntem Label beginnt, last verlässt sofort die Schleife, next springt sofort zur nächsten Iteration und redo springt zum continue-Block und wiederholt danach die derzeitige Iteration.

do {<Anweisungen>} while <Bedingung>;  # Spezialfall: in dieser Form
do {<Anweisungen>} until <Bedingung>;  # mindestens eine Ausführung

Nachgestellte Kontrollstrukturen

Die oberhalb aufgezählten Kontrollstrukturen beziehen sich auf einen Block mit mehreren Anweisungen. Bei einzelnen Anweisungen kann man auch die verkürzte, nachgestellte Schreibweise wählen, die auch den (englischsprachigen) Lesern das Verständnis durch natürlichsprachige Formulierung erleichtert.

<Anweisung> if      <Bedingung>;
<Anweisung> unless  <Bedingung>;
<Anweisung> for     <Liste>;
<Anweisung> while   <Bedingung>;
<Anweisung> until   <Bedingung>;

Reguläre Ausdrücke

Als eine der ersten Programmiersprachen erlaubte Perl den Gebrauch Regulärer Ausdrücke und setzte dabei den Standard PCRE, welcher von bedeutenden Sprachen wie Java, Python oder Ruby aufgegriffen wurde. Dieser Standard entspricht ca. dem Stand von Perl 5.0 und wurde seit dem um Funktionen wie Rückwärtsreferenzen erweitert. Auch lassen sich Reguläre Audrücke in Perl wesentlich direkter als z. B.in Java mit dem =~- Operator verwenden, da sie in Perl Kernbestandteil der Sprache sind und keine zuschaltbare Bibliothek. Der eigentliche reguläre Ausdruck wird mit Slashes ("/") eingerahmt, wofür aber auch fast jedes andere Zeichen Verwendet werden kann. Das verbessert die Lesbarkeit, da oft Slashes auch innerhalb reguläre Ausdrücke verwendet werden.

Perl kennt 3 Befehle für reguläre Ausdrücke, deren Verhalten mit vielen nachgestellten Optionen verändert werden kann.

  • Der m-Befehl steht für match, was man hier mit Suche übersetzen kann. Der folgende Ausduck durchsucht den Inhalt der Variable $var und liefert einen Array von Zeichenketten auf die der Suchausdruck passt. Das m kann auch weggelassen werden.

$var =~ m/<Suchausdruck>/<Optionen>;
  • Der s-Befehl steht für substitute, was ersetzen bedeutet. Er ersetzt den Teil des gegebenen Textes, auf den der Suchausdruck passt mit dem Ersatzausdruck.

$var =~ s/<Suchausdruck>/<Ersatzausdruck>/<Optionen>;
  • Der tr-Befehl lehnt sich an den UNIX-Befehl tr an, der dem ersetzen einzelner Zeichen dient. Synonym kann statt tr auch y geschrieben werden.

$var =~ tr/<Suchzeichen>/<Ersatzzeichen>/<Optionen>;

Dokumentation


Spaß mit Perl

Viele Spracheigenschaften von Perl laden dazu ein, Programmcode kreativ zu gestalten. Dies hat zu verschiedenen intellektuellen, teils humorvollen, teils skurrilen Wettbewerben und Traditionen um die Programmiersprache Perl geführt.

Golf

Golf (Programmierung) ist eine Sportart für Programmierer, bei der das kürzeste Programm (in ASCII-Zeichen), das eine gestellte Aufgabe vollständig erfüllt, gewinnt. Da Perl viele, teils trickreiche Kürzel und Abkürzungen gängiger Techniken kennt, ist dies eine besonders populäre Disziplin unter Perl-Programmierern.

Poesie

Ein anderer Wettbewerb prämiert die besten Beispiele in Perl-Poesie, die in zwei Kategorien betrieben wird. Neben der freien Form, die lediglich Perl zum Inhalt hat, wird hier versucht, Gedichte zu schreiben, die vom Interpreter ohne Warnungen und Fehlermeldungen ausgeführt werden. Da Perl viele Elemente der englischen Sprache beinhaltet, ist dies durchaus möglich, so erscheinen zum Beispiel regelmäßig neue Gedichte in der Perl Poetry-Kategorie des englischsprachigen Perl Monks-Forums. Daneben gibt es auch noch einen Perl-Haiku-Wettbewerb, der dieser japanischen Gedichtform gewidmet ist.

Obfuscation

Sehr berühmt und berüchtigt ist auch die Disziplin obfuscation, für die es auch einen jährlichen Wettbewerb gibt, der am ehesten mit dem International Obfuscated C Code Contest vergleichbar ist, den Larry selbst zweimal gewann. Hier wird danach gestrebt, auf ungewöhnliche und kreative Art und Weise die Funktion eines Programms zu verschleiern. Dies ist in Perl besonders leicht, da es für fast alles Kürzel gibt, die Sprache selbst sehr dynamisch ist und viele Dinge abhängig vom Kontext automatisch geschehen, was auch oft als „Perl-Magie“ bezeichnet wird. Ein Beispiel:

@P=split//,".URRUU\c8R";@d=split//,"\nrekcah xinU / lreP rehtona tsuJ";sub p{
@p{"r$p","u$p"}=(P,P);pipe"r$p","u$p";++$p;($q*=2)+=$f=!fork;map{$P=$P[$f^ord
($p{$_})&6];$p{$_}=/ ^$P/ix?$P:close$_}keys%p}p;p;p;p;p;map{$p{$_}=~/^[P.]/&&
close$_}%p;wait until$?;map{/^r/&&<$_>}%p;$_=$d[$q];sleep rand(2)if/\S/;print

JAPH

Eine Art Unterkategorie von obfuscation ist die von Merlin Randal L. Schwartz begründete Disziplin JAPH. Das sind Signaturen, die kleine Perl-Programme enthalten, welche meist nur den Namen des Autors oder eine Botschaft auf eine möglichst nicht nachvollziehbare Art ausgeben. Die Buchstaben JAPH sind die Anfangsbuchstaben von Merlins Signatur Just Another Perl Hacker.

Perligata

Das Perl-Modul Lingua::Romana::Perligata von Damian Conway ist wohl eines der skurrilsten Module schlechthin: Es ermöglicht dem Benutzer, Perl komplett in Latein zu schreiben. Wie in der lateinischen Sprache ist die Satzstellung (weitgehend) irrelevant für die Bedeutung eines Ausdrucks, stattdessen werden die Bezüge zwischen einzelnen Wörter durch ihre Flexion hergestellt. Von Variablen bis Referenzen und mehrdimensionalen Arrays ist alles in dieser neuen Sprachdefinition vorhanden. Nahezu alle Sonderzeichen wurden aus der Sprache entfernt, Variablen gleicher Namen, aber unterschiedlicher Struktur (Beispielsweise $next und @next) werden dekliniert, um die entsprechende Variable zu adressieren. Etwas Beispielcode:

insertum stringo unum tum duo excerpemento da.
   # Entspricht: substr($string,1,2) = $insert;
clavis hashus nominamentum da.
   # Entspricht: @keys = keys %hash;

Aus ähnlichem Antrieb entstanden „Sprach-Module“ für Klingonisch, Borg oder Leetspeak. Solche Module sind ein gutes Beispiel für den Zeitaufwand, den viele Leute Perl widmen; Perl kann man in diesem Sinne durchaus als Hobby bezeichnen.

Acme

Brian Ingerson legte mit seinem bekannten Modul namens Acme, das nichts weiter tut, als dem Benutzer zu bescheinigen, sein Programm habe den Höchstgrad an Perfektion erreicht, einen Grundstein für eine CPAN-Kategorie von Modulen, die keinen produktiven Nutzen haben, sogar oft bewusst kontraproduktiv sind oder eine Funktion vorgeben, die unmöglich so erreicht werden kann und eher als Witz zu verstehen ist. Dieses Spiel mit skurrilen Ideen umfasst beeindruckende ASCII-Art, Module, die den Quellcode unsichtbar machen (Acme::Bleach) oder sonstig humorvoll manipulieren, indem sie ihn zum Beispiel mit typischen Sprachfehlern des Präsidenten Bush versehen oder Methoden zufällig löschen, was die Anwesenheit einer diebischen Elster simulieren soll.