Computer-Masters.de > Artikel > Programmieren > Reguläre Ausdrücke > HTML Unicode Aufruf und Entitäten als regulärer Ausdruck

HTML/XML Unicode Aufruf und Entitäten als regulärer Ausdruck

Werden in HTML bzw. XML Entitäten aufgerufen, so möchte man diese sehr häufig z.B. beim Parsen herausfiltern.

Hier finden Sie einige Reguläre Ausdrücke, die diese Aufgabe übernehmen können.

Entitäten allgemein

Mit diesem regulären Ausdruck können Sie beliebige Entitäten herausfiltern. Es wird davon ausgegeangen, dass die Entitäten nur mit Groß- und Kleinbuchstaben benannt sind und keine Zahlen enthalten.

&[A-Za-z]+;

Aufruf von Unicode Zeichen

 In HTML gibt es die Möglichkeit Unicode Zeichen explizit mit ihrer Hexadezimalen Nummer aufzurufen. z.B. "&x20AC;" für "€". Ein regulärer Ausdruck zur Erkennung dieser Aufrufe kann wiefolgt aussehen:

&x[0-9A-Za-z]{1,4};

Durch {1,4} wird sichergestellt, dass mindestens ein Zeichen für die Nummer verwendet wird. Führende Nullen sind dadurch nicht verpflichtend, aber möglich.

Beide zusammen

Wenn es egal ist, ob es sich um Entitäten oder explizite Unicode-Aufrufe handelt, kann auch folgender Ausdruck genügen:

&[0-9A-Za-z]+;

Weiterführendes

Diese Artikel könnten Sie auch interessieren:

 

Sie haben noch Fragen?

Nutzen Sie einfach die Kommentarfunktion, die Ihnen auch als unregistrierter Leser zur Verfügung steht!

Gerne wird Ihnen bei Fragen zum Artikel weiter geholfen! Wenn Sie vom Artikel abweichende Fragen haben, können Sie gerne das Forum verwenden!

 

Kommentare

Computer-Masters.de > Artikel > Programmieren > Reguläre Ausdrücke > HTML Unicode Aufruf und Entitäten als regulärer Ausdruck

Anzeige: