www.thomas-guettler.de / Vorträge

Programmierung Allgemein

1			Warum Programmieren?
1.	1		Einleitung
2			Vergleich von mir bekannten Programmiersprachen
3			Grundlegendes
4			Versionsverwaltung
4.	1		Allgemein
4.	2		Begriffe
4.	3		CVS vs. SVN
4.	4		CVS
4.	5		SVN
4.	5.	1	Ein lokales Repository anlegen
4.	5.	2	SVN Tipps
5			Tipps zu einzelnen Programmiersprachen
5.	1		C
5.	2		Python
6			Warum ich von Perl nach Python umgestiegen bin
7			Allgemeine Hinweise zur Programmierung
8			32 vs 64 Bit
9			Advanced Spass in the Linux Environment
10			Links

1 Warum Programmieren? [toc]

1.1 Einleitung [toc]

Warum sollte man sich Programmierung beschäftigen? Entweder man möchte ein konkretes Problem lösen, oder aus Interesse. Es gibt zwar für fast alle Problemstellungen fertige Programme, doch wenn man individuelle Wünsche hat, braucht man mehr als starre Fertigprodukte.

Wer Programmieren kann ist dem reinen Anwender weit voraus, denn der Computer lässt sich dann beliebig nach seinen Wünschen steuern. Otto Normalanwender hingegen muss oft das tun, was der Rechner möchte.

2 Vergleich von mir bekannten Programmiersprachen [toc]

Die wahl der Programmiersprache ist nicht einfach, da es eine Unmenge an verschiedenen Sprachen gibt. Anfängern empfehle ich Python.

Mein subjektiver Vergleich verschiedener Programmiersprachen, mit dem Bezug zu meiner bevorzugten Sprache.

Java	Ich habe lange mit Java entwickelt (u.a. meine Diplomarbeit). Das Kompilieren zu Bytecode ist umständlich. Außerdem ist Java nur kostenlos, aber nicht frei. Da es mehrere Java Compiler und Interpreter gibt, kommt es immer wieder zu Problemen. Während sich SUN damit beschäftigt Interfaces zu definieren, die dann von kommerziellen Anbietern implementiert werden, erstellen die Entwickler freier Programmiersprachen eine lauffähige Bibliothek.
C	C ist rasend schnell in der Ausführung. Die Entwicklungszeit ist jedoch so langsam, dass ich nicht freiwillig in dieser Sprache programmiere. Der Einsatz von C ist nur bei betriebssystemnahen und zeitkritischen Aufgaben sinnvoll. Jeder, der sich ernsthaft mit Computern beschäftigt sollte dieser Sprache kennen. Debugging mit valgrind kann einem sehr viel Zeit sparen: Jeder Speicherzugriff wird von valgrind interpretiert und ggf. werden Warnungen auf stderr geschrieben.
C++	C++ hat gegenüber C mehrere Vorteile: Durch die Objektorientierung sind große Programme besser zu strukturieren. Exceptions (Ausnahmen) vereinfachen die Behandlung von Fehlern enorm. Trotzdem ist die Programmierung im Vergleich zu anderen Sprachen umständlich. Ein Grund dafür ist z.B., dass es keinen Garbage Collector gibt.
Lisp	Lisp hat einige interessante Aspekte. Lisp hat den Nachteil, dass es viele verschiedene zueinander inkompatible Implementierungen gibt. Die auf Klammern beruhende und einfache Syntax ist eher für Maschinen als für Menschen geeignet.
Perl	Perl ist Python sehr ähnlich. Da Perl-Code vieleSonderzeichen enthält, ist der Code nicht so leicht lesbar. Komplexe Programme werden in Perl unweigerlich "hässlich". Objektorientierung ist möglich, aber die Syntax ist grausam.
Ruby	Als ich mit Sommer 2001 mit Perl und Java unzufrieden war, und eine neue Programmiersprache suchte, betrachtete ich Ruby und Python. Ruby fehlt bis heute integrierte Unicode Unterstützung. Außerdem ist Ruby nicht so verbreitet wie Python und es gibt weniger Module. Nachteilig find ich, dass der beim Aufruf einer Methode die Klammern weggelassen werden können. Das macht es schwierig zwischen der Methode und dem Methodenaufruf zu unterscheiden (aka Funktionspointer).
PHP	PHP ist sehr verbreitet. Es wird hauptsächlich verwendet um auf einem Webserver HTML-Seiten für Browser zu erstellen. Bei PHP sehen Anfänger sofort einen Fortschritt: In wenigen Minuten ist eine einfaches Web-Formular erstellt. Der Einsatz außerhalb von Web-Anwendungen ist zwar auch möglich (z.B. gibt es eine Anbindung an die GUI-Bibliothek gtk), aber hier sieht man schnell, dass der Einsatz einer universellen Sprache sinnvoller ist.
TCL/TK	TCL ist eine Scriptsprache, mit der hauptsächlich portable grafische Benutzeroberflächen programmiert werden. Die Syntax von TCL errinnert etwas an Shell-Scripte. Die Bibliothek TK kann auch mit Python programmiert werden (tkinter). TCL/TK wird kaum mehr weiterentwickelt. Für grafische Oberflächen empfehle ich PyGTK.
Shell	Mittels Shell-Scripten lassen sich in wenigen Zeilen komplexe Aufgabenstellungen lösen. Werden die Scripte jedoch länger als 30 Zeilen, werden sie schnell unübersichtlich. Die meisten Scripte "fliegen einem um die Ohren" wenn Leer- oder Sonderzeichen in Dateinamen vorkommen. Man muss sich jedoch immer bewusst sein, dass es keine portablen Shell-Scripte gibt. Was mit der Bash unter Linux funktioniert, muss mit der Standard-Shell von Solaris noch lange nicht funktionieren. Einige Gründe warum ich Shellscripte meide: Keine Exceptions: Bei einem Fehler wird eine Meldung nach Standard-Error ausgegeben und mit der nächsten Zeile des Scripts weitergemacht. Shellscripte sind selten portabel: Bash vs. ash/zsh, Linux vs. BSD, ... Werden in einem Shellscript viele externe Programme gerufen (grep, cut, sort, sed, ...) werden die Scripte schnell langsam. Die Systemlast steigt, da viele neue Prozesse gestartet werden müssen. Für den Embedded-Bereich (z.B. OpenWRT (Linux auf einem WLAN-Router)), sind Shellscripte gut geeignet, da z.B. Python zu groß ist. Ein einziges Binary (BusyBox) stellt eine Shell, und alle für ein Unix üblichen Befehle (awk, cat, chmod, chown, cp, crond, cut, date, dd, df, diff, ...) bereit.
Python	Die Syntax ist sauber und einfach. Quelltext ist auch nach Jahren noch leicht lesbar. Die Objektorientierung ist pragmatisch gelöst. Nur in Ausnahmefällen greife ich zu einer anderen Sprache. Beispiel für eine Ausnahme: Ein Script soll nur einmal eingesetzt werden und lässt sich mit wenigen Zeilen mit der Shell (Bash) erledigen.

Resümee: Während bei Netzwerkprotokollen Standards wichtig sind, braucht man bei Programmiersprachen freie und funktionierende Implementierungen. Deshalb scheiden Lisp und Java aus. PHP, Perl, TCL haben eine unschöne Syntax. Bleibt die Shell (Bash) für kleine Scripte, Python für komplexe Programme und C für zeitkritische Dinge.

3 Grundlegendes [toc]

Hier ein paar Gedanken die allgemeingültig und unabhängig von der konkreten Programmiersprache sind.

KISS: Keep it simple and stupid: Löse das Problem möglichst einfach. Ein guter Programmierer schreibt leicht lesbaren, verständlichen Quelltext.

Beispiel: In den letzten Jahren hat sich der sehr einfache XML-Standard gegenüber dem komplexen SGML-Standard durchgesetzt.
Quelltext zu kopieren ist falsch. Besonders als Anfäger kopiert man viel Quelltext. Bei jedem Kopieren sollte man sich aber fragen, ob es nicht möglich ist, den Algorithmus in einer Funktion zu schreiben, so dass kein Quelltext kopiert werden muss. Funktionen mit nur 2 bis 3 Zeilen sind jedoch zu vermeiden.
Vermeide Redundanz: In der Mathematik wird der Bruch "4/2" zu "2" gekürzt. Bei der Programmierung muss man entsprechend handeln.
Erfinde das Rad nicht neu: Fast jede Aufgabe wurde schon einmal gelöst. Es gibt genug freie Implementierungen, die man in seine eigenen Programme einbinden kann.
Erstelle nicht automatisiert Quelltext mit einem Programm. Quelltext ist äußerst ungeeignet um Daten zu speichern. Wenn aus einer Datenmenge ein Quelltext erstellt wird, enthält der Quelltext nicht mehr Information als die Ausgangsmenge. Man hat also nichts gewonnen!

Beispiel: Für die TCL/TK gab es GUI-Designer mit denen man Oberflächen (ähnliche wie bei Visual-Basic) zusammenklicken kann. Der dabei automatisch erstellte Quelltext konnte nur bedingt wieder eingelesen werden. Den richtigen Weg geht glade von gtk: Der GUI-Designer erstellt eine XML-Datei. In allen gängigen Programmiersprachen gibt es ein Modul um mittels der XML-Datei die Oberfläche anzuzeigen.

fd.close() ist auch in Scriptsprachen sinnvoll:

# Erstelle eine Datei und kopiere Sie dann per scp:
fd=open(filename, "w")
fd.write(...)
cmd="scp '%s' nutzer@remote:mydir/" % filename
ret=os.system(cmd)
assert not ret, "cmd failed: %s" % cmd

# --> Im obigen Beispiel fehlt fd.close()!
#     in 95% der Fällen wird die komplette Datei kopiert.
#     Ggf. (unter hoher Systemlast) wurde die Datei noch
#     nicht komplett in das Dateisystem geschrieben (Daten sind
#     noch im Puffer) und der letzte Teil der Datei wird nicht
#     per scp übertragen.

4 Versionsverwaltung [toc]

4.1 Allgemein [toc]

Selbst wenn man alleine ein Programm schreibt, kann es sinnvoll sein eine Versionsverwaltung zu verwenden. Notwendig wird es, wenn mehrere Personen an einem Projekt arbeiten.

Unabhängig davon welches Programm zur Versionverwaltungs verwendet wird, ist es wichtig, dass man versteht welche Dateien versioniert werden müssen und welche nicht. Alle Dateien, die man per Hand bearbeitet müssen in die Versionsverwaltung. Das sind im besonderen Quelltexte und ggf. Konfigurationsdateien. Dateien die aus anderen Dateien erstellt werden, werden nicht versioniert. Ein paar Beispiele:

Aus meinprojekt.c und meinprojekt.h wird das Programm "meinprojekt". Die C-Datei und die Header-Datei kommen in die Versionsverwaltung. Das erstelle Programm "meinprojekt" nicht.
Aus configure.in wird die Datei "configure" erstellt. Erstere Datei kommt in die Verwaltung, die Datei "configure" nicht.
Aus einer SVG (Scalable Vector Graphic) Datei werden mehrere PNG-Dateien: Die PNG-Dateien gehören nicht in die Versionsverwaltung.

Wenn man Änderungen an einem bestehenden Projekt durchführt, sollte man zusammengehörende Änderungen mit einem "commit" einchecken. Möchte man z.B. zwei unabhängige Veränderungen durchführen, ist es besser zweimal ein "commit" durchzuführen. Also: Erste Änderung, commit. Zweit Änderung, commit. Ansonsten lässt sich schlecht nachvollziehen warum die Änderungen durchgeführt wurden.

4.2 Begriffe [toc]

Repository: Ein Projekt in einer Versionsverwaltung.
Auschecken: Ein Projekt aus der Versionverwaltung (zum erstenmal) auf den eigenen Rechner kopieren.
Update: Die ausgecheckte Version aktualisieren, die von anderen Programmieren durchgeführten Änderungen werden in die lokale Kopie integriert.
Merge: Falls zwei Personen eine Datei geändert haben, müssen die Änderungen zusammengeführt werden. Falls das nicht automatisch möglich ist (es wurden die gleichen Zeilen in der Datei geändert), kommt es zu einem Conflict.
Commit: Änderungen, die an der lokalen Kopie durchgeführt wurden in das Repository zurückspielen. Die Änderungen werden somit für andere Entwickler sichtbar.
History: Bei jeder Änderung (commit) wird der Versionszähler um eins erhöht. Mit dem Befehl "diff" kann man sich die Unterschiede zwischen zwei Versionen anzeigen lassen.

4.3 CVS vs. SVN [toc]

Das Programm zur Versionsverwaltuns CVS ist weit verbreitet und den meisten Entwicklern bekannt. Es hat jedoch einige Nachteile, so dass für neue Projekte SVN (Subversion) verwendet werden sollte. Viele große Open Source Projekte sind in der letzten Zeit von CVS auf SVN umgestiegen.

Für beide Programme existiert das Programm "viewcvs". Es stellt das Repository mit Historie per Web dar. Man kann bequem verschiedene Versionen einer Datei mit einem Browser vergleichen. Eine GUI für CVS/SVN ist aus meiner Sicht nicht nötig. Die Befehle "commit" und "update" kann man auf der Shell ausführen.

Nachteile von CVS, die mit SVN behoben werden:

Dateien können nicht verschoben werden. Sie müssen gelöscht und neu angelegt werden. Die History geht verloren.
Keine automaren Commits. Führen zwei Entwickler gleichzeitig ein Commit aus, kann es zu Problemen kommen.
Es wird zwischen binären und Textdateien unterschieden.
Verzeichnisse können nicht "für immer" gelöscht werden.

4.4 CVS [toc]

Beispiele

   # Vergleicht die lokale Kopie mit der vor vier Tagen
   cvs diff -D "4 days ago" 

   # Vergleicht die lokale Kopie mit dem aktuellen Version im
   # Repository. Ohne die Options "-r HEAD" werden nur die Änderungen
   # angezeigt, die an der lokalen Kopie durchgeführt wurden.  

   cvs diff -r HEAD

Binäre Dateien im CVS:

  cvs status file     # Falls "Sticky Options: -kb", ist die Datei binär.
  cvs admin -kb file  # Als binär markieren.
  cvs update -A file  # In lokaler Kopie altes Flag löschen.

  Das "-kb" Flag für binäre Daten setzen, die nicht mit "cvs add -kb"
  eingecheckt wurden:

    FILES=`find . | grep -E '\.(png|gif|jpg)$'`
    cvs admin -kb $FILES
    rm $FILES
    cvs update

 cvs update
  -d --> Auch neue Verzeichnisse holen (wird sonst nicht gemacht!)
  -P --> Leere Verzeichnisse löschen. Ansonsten werden gelöschte
            Verzeichnisse immer wieder neu angelegt.

Mit der Datei .cvsrc lassen sich Optionen setzen, die dann immer automatisch gesetzt werden:

  ~/.cvsrc:
   log -N
   diff -u
   update -dP
   checkout -P

4.5 SVN [toc]

4.5.1 Ein lokales Repository anlegen [toc]

Das Verzeichnis 'mysite' und alle Dateien darunter sollen in die Versionsverwaltung augenommen werden. Bei SVN ist es üblich den aktuellen Stand in dem Verzeichnis 'trunk' zu pflegen.

# Dieses Verzeichnis enthält die zentrale Datenbank des Repositories
mkdir -p ~/svn/mysite

# Repository Verzeichnisse anlegen
svnadmin create ~/svn/mysite

# Suchen, ob noch Dateien vorhanden sind, die nicht
# versioniert werden sollen. Achtung: alle Dateien
# werden importiert.
find mysite 

mkdir  import_dir
mv mysite import_dir/trunk

# Es wird nur der *Inhalt* von import_dir
# importiert. Der Verzeichnisname ist also egal.
svn import import_dir file://$HOME/svn/mysite

# Original wird nicht mehr benötigt
mv import_dir tmp

# Trunk (Head) Arbeitskopie aus dem Repository holen, und
# in das Verzeichnis 'mysite' speichern.
svn co file://$HOME/svn/mysite/trunk mysite

4.5.2 SVN Tipps [toc]

user@host> vi ~/.subversion/config
...
global-ignores = *.pyc *~

Ich verwende in den Quelldateien die SVN Keywords Id und HeadURL.

Mit folgender Scriptzeile kann man prüfen, ob die Tags bei allen Dateien registiert sind:

svn -R list | while read file; do 
   [ ! -f $file ] && continue; 
   svn propget svn:keywords $file | grep -q Id || echo $file; 
done > files-ohne-id-im-svn.log


# svn:keywords setzen (Datei vorher ggf. anpassen)
cat files-ohne-id-im-svn.log | while read file; do 
 svn propset svn:keywords 'Id HeadURL' $file; 
done

Id und HeadURL als SVN Keywords sind natürlich nur nützlich, falls auch die Tags im Quelltext vorkommen. Hier ein Script, um das zu prüfen: Alle Dateien ohne '$Id' werden auf Stdout ausgegeben.
```
svn -R list | while read file; do [ ! -f $file ] && continue; grep -qE 
'\$Id' $file || echo $file; done
```

Commit-Messages anzeigen:

svn log r12345:HEAD
svn log {2009-03-16}:HEAD

5 Tipps zu einzelnen Programmiersprachen [toc]

5.1 C [toc]

Um bei einer fehlerhaften Assert-Anweisung, oder beim Unterbrechen des Programmes mit Strg-C automatisch einen Traceback mit Zeilennummern zu erhalten, kann man Folgendes verwenden (Nur unter Linux getestet, sollte auch mit anderen Unix-Systemen gehen):

/*

 Ausprobieren:
 gcc -g -Wall tbtest.c -o tbtest
 ./tbtest
  test NNNN

 Zweite Shell:
 kill NNNN

*/
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <signal.h>

void print_backtrace() {
  char str[100+4096];
  char path[4096];
  path[readlink("/proc/self/exe", path, -1+ sizeof(path))] = '\0';
  sprintf(str, "echo 'bt\ndetach\nquit\n' | gdb -batch -x /dev/stdin %s %d\n",
          path, (int)getpid() );
  system(str);
  exit(2);
}


void signalhandler(int sig){
  printf("#Signal %i\n", sig);
  print_backtrace();
}

#undef assert
#define assert( expression )         \
  ( ( void ) ( ( expression ) ?                             \
               0 : my_assert( #expression, __FILE__, __LINE__ ) ) )

/* Print Stacktrace with line numbers if assert fails */
void my_assert(const char *expression, const char *filename,
              int line ){
  printf("Assertion failed %s %s %i\n", expression, filename, line);
  print_backtrace();
}

// .......
int main(int argc, char *argv[]) {
  signal(SIGTERM, signalhandler);
  signal(SIGINT, signalhandler);
  signal(SIGSEGV, signalhandler);
  while(1) {
	printf("testtb %d\n", getpid());
  }
}

5.2 Python [toc]

Siehe Python Einführung.

6 Warum ich von Perl nach Python umgestiegen bin [toc]

Von 1998 bis 2001 war Perl meine bevorzugte Programmiersprache. Als ich jedoch eine Anwendung schreiben wollte, deren Datenstruktur aus vielen Referenzen zu ineinander verschachtelten Objekten bestand, ist der Perl-Mode von XEmacs ausgestiegen. Die Unmenge von Sonderzeichen hat er nicht verkraftet. Die Syntax war richtig, das Programm war lauffähig. Dass der Perl-Mode die Syntax nicht mehr verstand, war für mich der Anlass eine andere Programmiersprache zu suchen.

Im Folgenden ein paar Dinge, warum ich von Perl zu Python gewechselt bin:

In Python werden die geläufigen Begriffe verwendet. Gibt es für etwas einen festen Begriff im ANSI-C oder POSIX Standard, dann wird dieser Begriff verwendet. Erfahrene Programmierer finden im Index sofort die benötigten Funktionen. In Perl werden oft andere Worte verwendet.
- next & last: In C, C++, Java und vielen anderen Programmiersprachen besagt das Schlüsselwort "continue", dass zum Anfang der Schleife gesprungen werden soll. In Perl heißt es "next". Genauso bei "break". In Perl muss man "last" verwenden.
- Ähnlich ist es beim Schlüsselwort local. Auf den ersten Blick denk man, dass man so lokale, also außerhalb des aktuellen Bereichs nicht sichtbare Variablen, anlegen kann. Doch:
```
perldoc -f local:
    You really probably want to be using "my" instead, because 
    "local" isn't what most people think of as "local".
man perlsub:
    "local" is mostly used when the current value of a variable must be 
    visible to called subroutines.
```
- Der vielen Programmieren bekannte Name "tolower" (ANSI-C) wird nicht verwendet. Perl nennt die Funktion lc().

Mit der Funktion "length" bestimmt nur die Länge einer Zeichenkette bestimmen, aber nicht die Länge eines Arrays oder Hashes. Dies geht so:

   # -- Perl --
   # Zeichenkette
   length($mystring);

   # Array (Liste)
   scalar @array;
   $#array;       # oder: Index des letzten Elements im Array (Länge - 1)

   # Hash (Dictionary)
   scalar keys %hash;

In Python ist die Syntax um die Länge zu bekommen immer gleich:

   # -- Python --
   mystring="abc"
   len(mystring)

   mylist=[1, 2, 3, 4]
   len(mylist)

   mydict={1: "eins", 2: "zwei", 3: "drei"}
   len(mydict)

Perl: Keine Warnung, falls man zuviele Argumente bei printf angibt:

printf "%s\n", "eins", "zwei";

In Python erhält man ein Exception, falls die Anzahl der Argumente nicht stimmt:

print "%s" % ("eins", "zwei")

Traceback (most recent call last):
  File "/home/guettli/test.py", line 6, in ?
    main()
  File "/home/guettli/test.py", line 4, in main
    print "%s" % ("eins", "zwei")
TypeError: not all arguments converted during string formatting

Zeichenketten können in Perl nicht wie Listen behandelt werden. In Python schon:

   # -- Perl --
   $value = substr($string, $offset, $count);
   $value = substr($string, $offset);

   # -- Python --
   value = mystring[start:end]

In Perl können die Klammern bei einem Funktionsaufruf fehlen. Das verschlechtert die Lesbarkeit des Quelltextes. Wie will man da einen Funktionsaufruf von einem Funktionspointer unterscheiden?
#Perl $obj->foo;
#Python obj.foo() # Funktionsaufruf obj.foo # Referenz zu der Funktion. (Funktionspointer)
```
print "5" + 3;
```
Obiges Beispiel führt in Perl zu keiner Fehlermeldung. Wenn eine Zahl zu einem String addiert wird, handelt es sich um einen Programmfehler. Perl konvertiert automatisch den String "5" zu einer Zahl. Dieses Verhalten führt jedoch dazu, dass Programmfehler übersehen werden. Die explizite Schreibweise in Python
```
print int("5") + 3
```
sagt mir mehr zu.

Was ergibt int("zeichenkette") in Perl? Eine Integer-Null. In Python erhält man eine Exception, was aus meiner Sicht mehr angebracht ist. Vergleich zum "wirklichen Leben": Wenn man beim Fleischer ein Stück Kuchen kaufen möchte, wird er einem nicht wortlos eine leere Tüte (Integer-Null) geben, sonder darauf hinweisen: "Nein, hier bekommen Sie keinen Kuchen!"
```
$_
```
Perl verwendet viele "magische" Variablen ($_, @_, $!, $&, ...), was den Quelltext sehr unverständlich macht.
Builtin Regular Expresssions: In Python sind Reguläre Ausdrücke mittels einer Bibliothek verfügbar. In Perl sind sie Teil der Syntax der Sprache. Ich finde den Ansatz von Python sauberer.
Zeichenketten werden in Perl mit dem "eq" Operator und nicht mit "==" verglichen. In Python gibt es nur einen Vergleichsoperator, was besonders für Anfänger einfacher ist.

Die Print-Anweisung in Python zeigt meist sinnvollere Informationen:

     #Perl:
     @array=(9, 10, 11);
     print @array;
     ---> 91011

     #Python:
     array=[9, 10, 11]
     print array
     ---> [9, 10, 11]

Variablen brauchen in Perl nicht initialisiert zu werden:
```
    @array=undef;
    push(@array, 1);
    print @array;
    #oder:
    $myint=undef;
    $myint++;
   
```
In Python müssen Variablen mit einer Zuweisung initialisiert werden. Fehler im Quelltext fallen so früher auf:
```
     array=[]
     array.append(1)
    
```
Wird auf nicht existierende Elemente in einem Hash zugegriffen, erhält man in Python eine Exception, in Perl jedoch nicht:
```
    #Perl:
    my (%myhash);
    $var=$myhash{"nicht existent"};
    print "meine Variable: $var\n";
   
```
Durch dieses Verhalten werden Fehler übergangen. Zum Programmabsturz kommt es dann erst an einer späteren Stelle im Quelltext. Dort lässt sich der Fehler jedoch schlecht lokalisieren, verstehen und beheben.

Perl verhält sich hier ähnlich wie ein Shellscript. Falls ein Befehl fehlschlägt, wird ggf. eine Fehlermeldung auf Standarderror ausgegeben und die nächste Zeile abgearbeitet als wäre nichts gewesen.

Mir ist eine Exception wie in Python lieber als ein amoklaufendes Programm.

Möchte man in Perl zwei Listen mit return als Funktionsergebnis zurückgeben, so muss man eine andere Syntax verwenden, als wenn man zwei Strings oder Integerwerte zurückgibt:

   # Perl
   sub return_two_lists{
     my @list1;
     my @list2;

     # .... Listen füllen

     return (\@column_alignments, \@widths);
   }
   my ($list1_ref, $list2_ref) = return_two_lists();
   my @list1 = @$list1_ref;
   my @list2 = @$list2_ref;

In Python ist die Syntax einheitlich: Es ist gleich ob man Listen, Dictionaries, Integers, Methoden oder sonstige Objekte zurückgibt.

    # Python
    def return_two_lists():
        list1=[]
        list2=[]
      
        # .... Listen füllen

        return (list1, list2)

    (list1, list2) = return_two_lists()

Exceptions sind in Python ein fester Teil der Programmiersprache, in Perl nicht. Objektorientierte Exceptions sind in Perl auch möglich, doch einiges umständlicher. Siehe Object Oriented Exception Handling in Perl.

Die Standards ISO-C und POSIX definieren sehr häufig, dass bei einem Fehler eine Funktion -1 zurückgibt. Perl übernimmt das leider und überlässt es dem Programmierer, den Rückgabewert fast aller Funktionen abzufragen. Siehe "perldoc -f" von read, print, open, ...

In Python wird im Fehlerfall (Festplatte voll, Datei nicht vorhanden, kein Speicher mehr verfügbar, Broken Pipe) eine Exception (Ausnahme) erstellt.
Folgender Perl-Schnipsel existiert häufig in Skripten:
```
    open (FD,"$FILENAME") or die "Can't open file $!";
   
```
Mir gefällt die Python-Variante besser:
```
   fd=open(filename)
   
```
Man kann sich das 'or die "Can't open file $!";' sparen. Wenn die Datei nicht geöffnet werden kann, erhält man außerdem nicht nur die aktuelle Zeile angezeigt, sondern einen Stacktrace, der auch die Zeilen der aufrufenden Funktionen beinhaltet.

Das zeilenweise Lesen von einem Filedescriptor ist nur scheinbar einfach.

# Perl Variante 1
# Naive Variante: IO-Fehler werden nicht bemerkt:
open FD, "test.txt" or die $!;
while ($line=<FD>) {
  print "line $line";
}
close FD;

# Perl Variante 2
# IO-Fehler werden bemerkt, aber falls die letzte Zeile
# nicht mit einem Newline Zeichen endet, kommt es zu einem
# Fehler
open FD, "test.txt" or die $!;
for (;;) {
  undef $!;
  unless (defined( $line = <FD> )) {
	die $! if $!;
	last; # reached EOF
  }
  print "line $line";
}
close FD;

Leider funktioniert obiges Beispiel nicht, wenn die letzte Zeile nicht mit einem Newline endet ...
In Python ist das einfach:

# Python
# Bei IO-Fehlern erhält man eine Exception
fd=open("test.txt")
for line in fd:
    print "line %s" % line
fd.close()

Unicode ist ein fester Bestandteil von Python. In Perl ist Unicode erst über externe Module verfügbar. Beispiel: Die im üblichen Methoden zum Bearbeiten von XML-Dateien (SAX/DOM) geben nicht Unicode Zeichenketten sondern als UTF8 kodierte Bytefolgen zurück.
Zwei Operatoren für die Negation:
```
if (! "a" eq "b") {
    print "a!=b  !\n";
}

if (not "a" eq "b") {
    print "a!=b not\n";
}
```
Beide If-Anweisungen sehen ähnlich aus. Da "not" und "!" jedoch andere Prioritäten haben, verhält sich die erste Anweisung nicht wie man es vermutet.

Der in-Operator von Python ist kinderleicht:

   zutat="Käse"
   pizza=["Teig", "Tomatenmark", "Käse", "Salami", "Thunfisch"]
   if zutat in pizza:
       print "lecker!"

In Perl gibt es den in-Operator nicht. Die Lösung ist umständlich (entsprechender FAQ Eintrag):

   $zutat="Käse";
   @pizza=qw(Teig Tomatenmark Käse Salami Thunfisch);
   if (grep $_ eq $zutat, @pizza) {
       printf("lecker!\n");
   }

Die open Funktion in Perl ist unsicher. In vielen Perl-CGI Programmen kann auf dem Server beliebiger Code ausgeführt werden, in dem z.B. folgender Dateiname übergeben wird:
```
  "dummy.config | rm -rf /"
  
```
Die Funktion open öffnet "magischerweise" auch Pipes. In Python hat das Öffnen von Pipes den Namen, den auch die POSIX-Spezifikation verwendet: popen.
Das Python Modul cgitb (CGI Traceback) ist genial. Beim Entwickeln von Webanwendungen, will man bei einem Fehler sofort sehen wo dieser Fehler aufgetreten ist, und mit welchen Werten die Variablen belegt sind.

Hier ein Beispiel: cgitb Beispiel

Ein schwacher Trost für Perlanwendungen:
```
  use CGI::Carp qw(fatalsToBrowser);
  BEGIN {
      # Stacktrace anzeigen.
      $SIG{__DIE__} = sub { CGI::Carp::confess @_ };
  }
  
```

Das Auflisten/Auslesen eines Verzeichnisses ist in Perl umständlich:

# Perl
opendir(DIR, $mydir) || die $!;
my @files=readdir(DIR);   # Leider inklusive "." und ".."
closedir(DIR);

# Python
files=os.listdir(mydir)   # Sinnvollerweise ohne "." und ".."

Eine Datei auf einmal auf einen String einzulesen ist in Python einfach:
```
#Python
fd=open('datei.txt')
content=fd.read()

# Perl
open FD, 'datei.txt';
my $file = do { local $/; <FD> };
```
Es wird der input record seperator indirekt auf 'undef' gesetzt. Somit wird die gesamte Datei und nicht nur die erste Zeile eingelesen. Siehe 'man perlvar'. Ich gebe zu, dass es ein Nachteil von Python ist, dass der input record seperator nicht geändert werden kann.

Der Zugriff auf den Zeitstempel einer Datei ist in Python einfacher:

# Python
import os
mtime=os.path.getmtime(file)

# Perl
$mtime = (stat $file)[9];

# Oder besser, mit CPAN Modul
use File::stat;
$mtime=stat($file)->mtime

Falls es sinnvoll ist, weicht Python von dem POSIX-Standard ab:

<time.h>
    tm_mon The number of months since January, in the range 0 to 11.
    tm_year The number of years since 1900.

Perl übernimmt das 1:1.

Bei Python:
time.localtime():
    tm_year for example, 1993
    tm_mon  range [1,12]

Die bei Perl mitgelieferte Dokumentation sind man-Pages. Die Dokumentation für Python ist als HTML und PDF verfügbar.
Bricht man ein Perl-Script mit STRG-C ab, erfährt man nicht, an welcher Stelle das Script beendet wurde. Bei Python erhält man einen aussagekräftigen Traceback. Das ist besonders sinnvoll, wenn ein Script in einer Endlosschleife hängt oder unerwartet lange für eine Schleife benötigt.
Python kommt mit "Batteries included". Das soll heißen, dass die mitgelierte Standardbibliothek den Programmierer in die Lage versetzt sofort Anwendungen zu entwickeln. Der Funktionsumfang von Perl ist einiges geringer. Die meisten Bibliotheken von Perl muss man sich erst von CPAN besorgen.
Die Entwickler von Perl arbeiten kräftig an der nächsten Version: Perl6. Mit dieser Version soll vieles anders werden. Doch wenn damit vieles anders werden soll, ist doch an dem derzeitgen Perl vieles falsch, oder?

Mit "use strict;" lassen sich einige der Schwachstellen von Perl abschalten. Man kann jedoch nicht davon ausgehen, dass fremder Quelltext "use strict" verwendet.

Perl lässt sich trotz der Nachteile nicht ignorieren. Als Softwareentwickler muss man in der Lage sein Änderungen an Perl-Quelltext vornehmen zu können.

Perl wird wohl für immer ein geläufiger Begriff sein. Ähnlich wie "Uhu", "Padex", "Pampers" etc. nicht nur das Produkt einer Firma bezeichnen, sondern in der Umgangssprache auch stellvertretend für eine Gruppe von Produkten stehen, ist Perl der geläufige Begriff für "Scriptsprache".

Andere sind auch meiner Meinung: Warum nicht Perl in "A Byte of Python"

Trotzdem verwende ich Perl! Jedoch fast ausschließlich als Ersatz für sed und awk als Einzeiler.

7 Allgemeine Hinweise zur Programmierung [toc]

Integer-Werte zum Zählen von 0 bis N nennt man meistens "i" bzw. "j".
Der Quelltext sollte nicht breiter als 80 Zeichen pro Zeile sein.
Lieber etwas mehr tippen: Verständliche Variablen und Funktionsnamen erleichtern das Lesen des Quelltextes. Man sollte so programmieren, dass man den Quelltext auch in zwei Jahren noch versteht.
Schreibe Unittest: Mit kleinen Test-Funktionen kann man überprüfen, ob der Quelltext funktioniert. In einem Unittest sollten möglichst alle kritischen Programmzeilen anhand von Testdaten durchlaufen werden.
Verwende Assert-Anweisungen. Mittels Assertions wird zur Laufzeit überprüft, ob die Daten konsistent sind.
Halte die Feedback-Loop möglichst kurz. Als Feedback-Loop bezeichnet man die Zeit die zwischen dem Eintippen des Quelltextes und dem Sehen der Ergebnisse vergeht. Bei GUI-Anwendungen ist dieser Zeitraum oft recht lang, da das Programm neu gestartet werden muss, bis man die Stelle kommt, an der das Programm abstürzt. Bei Web-Anwendungen hingegen ist dieser Zeitraum häufig kurz, da der HTTP-Request, der den Fehler verursachte einfache durch Strg-r (Reload des Browsers) erneut gesendet werden kann. Noch besser sind automatisierte Tests, so dass nach dem Speichern des Quelltextes nur der Test erneut aufgerufen werden muss. Ein Shell mit History-Mechanismus ist dann besonders hilfreich, weil man ohne Maus arbeiten kann.

Namen von Klassen werden groß geschrieben, alles andere wird klein geschrieben:

    class MyClass:       # Klassennamen groß
        def foo(self):   # Methoden/Funktionsnamen klein
            ...
    myobject=MyClass()   # Variablennamen klein

Vermeide tiefe Verschachtelungen:

# Variante 1:
for zeile in liste:
    if zeile: # Falls Zeile nicht leer
        mache_etwas1 # Der "eigentliche" Code ist auf Ebene 2
        mache_etwas2
        ....

# Variante 2:
for zeile in liste:
    if not zeile:
        # Überspringe leere Zeile
        continue
    mache_etwas1 # Der "eigentliche" Code ist auf Ebene 1
    mache_etwas2
    ...

Das Schließen eines Filedescriptors ist auch in Sprachen mit Garbage Collection sinnvoll. In Hochsprachen wird das Schließen gelegentlich nicht ausgeführt, da das Dateihandle am Ende des Funktionsaufrufs automatisch geschlossen wird. Hier ein Beispiel, bei dem das explizite Schließen beim schreibenden Zugriff nötig ist:
```
   outfile="statistik.log"
   fd=open(outfile, "wt)
   fd.write(data)
   fd.close() # <------------------- Nötig!
   os.system("gzip '%s'" % outfile)
  
```
Wird der Filedescriptor nicht geschlossen sind ggf. nach ein paar Bytes im Cache und nicht in die Datei geschrieben. Die gezippte Datei ist also ohne fd.close() ggf. abgeschnitten.
Vermeide Threads: Sie sind tückisch und Fehler lassen sich schlecht reproduzieren. Bei GUI-Programmierung bieten alle Bibliotheken (gtk, qt, tk, ...) die Möglichkeit mit zwei Tricks auch ohne Threads auszukommen:
- Aufgaben an das Ende der Event-Queue anhängen: Bei gtk z.B. gobject.idle_add(mycallback).
- Falls das Abarbeiten eines Events aufwendig ist, sollten zwischendurch wartende Aufgaben in der Event-Queue abgearbeitet werden. Ansonsten scheint die Anwendung 'eingefroren' zu sein, da die Oberfläche nicht mehr aktualisiert wird:
```
def onclick_mache_viel():
    while noch_viel_zu_tun:
        ...
        while gtk.events_pending():
            # Andere Events bearbeiten
            gtk.main_iteration(False)
        ...
```
  Siehe auch PyGTK FAQ.
Nebenläufigkeit lässt sich auch durch einen externen Prozess erreichen: Unter Unix kann der Elternprozess mit select() die Ausgaben des Subprozesses (oder der Subprozesse) abfragen, unter Windows geht das leider nicht. Man kann aber mit Non-Blocking IO arbeiten.

Beispiel: Ein Internet-Spider (Programm das rekursiv Links auf Internetseiten folgt um Informationen zu sammeln) sollte in zwei Teile getrennt werden: Ein GUI-Prozess und ein IO-Prozess. Der IO-Prozess ist der Subprozess der GUI. Der IO-Prozess hat für jedes Herunterladen einer URL ein Filehandle und zusätzlich ein Filehandle um vom GUI-Prozess Befehle entgegen zu nehmen.
Verwende bei Subprozessen nur genau einen IO-Kanal. Subprozesse bieten dem aufrufenden Prozess drei Kanäle: Standardeingabe (tochild), Standardausgabe (fromchild), Standardfehler.
- Falls zum Prozess geschrieben wird, dann leite stdout und stderr in eine Datei um.
- Falls vom Prozess gelesen wird, dann darf nicht nach tochild geschrieben werden, und stderr muss 'ablaufen' können.
Programmiere beim ersten Mal nicht eine 'generische' Lösung: Viele, die Spaß am Programmieren haben, verstehen es, dass eine generische Lösung (das Programm ist allgemeingültig geschrieben, so dass es sich auch viele andere Zwecke einsetzen lässt) besser ist als eine problemspezifische Lösung. Mein Tipp: Versuche beim ersten Anlauf die Aufgabe möglichst einfach und unkompliziert zu lösen. Erst wenn das funktioniert, kann man ein 'Refactoring' durchführen, und Teile verallgemeinern.

8 32 vs 64 Bit [toc]

Folgende Tabelle wurde mit dem C-Programm print_sizeof.c erstellt. Es werden die Speichergrößen der Datentypen zwischen 32 Bit und 64 Bit (amd64) verglichen (Linux, gcc).

	64	32
char	1	1
int	4	4
unsigned int	4	4
long	8	4
unsigned long	8	4
long long	8	8
short int	2	2
unsigned short int	2	2
float	4	4
double	8	8
void* (Pointer)	8	4

9 Advanced Spass in the Linux Environment [toc]

Linux ist ein Eldorado für Programmierer.

Welche Dateien hat ein Prozess noch geöffnet?

# Welche Dateien hat httpd2-prefork offen?
ps -C httpd2-prefork -opid= | while read pid; do 
 ls -l /proc/$pid/fd/*; 
done | grep -vE '/dev/null|socket:|pipe:|deleted'

Das Buch "Advanced Programming in the Unix Environment"ist sehr zu empfehlen.

10 Links [toc]

Siehe auch Python-Perl Vortrag von S. Schwarzer
Dieser und andere Vorträge
Pleac: Vergleich mehrerer Programmiersprachen anhand des Perl-Cookbooks

© 2004-2005 Thomas Güttler. Der Text darf nach belieben kopiert und modifiziert werden, solange dieser Hinweis zum Copyright und ein Links zu dem Original unter www.thomas-guettler.de erhalten bleibt. Es wäre nett, wenn Sie mir Verbesserungsvorschläge mitteilen: guettli@thomas-guettler.de