I can not figure out the correct RegEx to use for parsing a text file and identifying paragraphs.
What I currently have:
[\n\n]+
Sample Text:
Das Pensionat Klinger war bereits etwas zusammengeschmolzen, als das junge Ehepaar daselbst eintrat. Es war ein unfreundlicher, regnerischer Sommer gewesen. Klagen überall ... aus der Schweiz -- vom Salzkammergut her, wo der berüchtigte »Schnürlregen« tagaus tagein herabgoß -- Klagen vom Ostseestrande und aus dem Engadin ... Klagen endlich auch aus dem lieblichen Gebirgsnest in Süd-Bayern, in welchem man durch schönes Wetter sonst arg verwöhnt war.
Ein so reizendes Stück Erde! Tief gelegen -- hoch gelegen, wie man's eben nehmen wollte, denn die zierlichen, wie aus der Spielzeugschachtel genommenen Häuschen kletterten hier waghalsig die Berge empor, versteckten sich dort eigenwillig unter breitästigen Obstbäumen tief drunten im Thal. Aber die Sonne fand sie alle und übergoß sie mit breiten Strahlenfluten hellen Goldes, und der Bergwind, wie er frisch und kühl vom Gebirge herunterfuhr, strich darüber hin -- und ringsumher griffen die Berge wie die Glieder einer gewaltigen Kette ineinander ... einige grün, dicht bewaldet, die anderen kahl und schroff, hoch oben nur mit kümmerlichem Fichtenwuchs bestanden, und etwelche unter ihnen stolz zu den Wolken aufragend, ewigen Schnee auf dem Haupt, und in den Falten des Obergewandes blauschimmerndes Gletschereis!
I keep getting feedback that at the end of the line I am getting a token back saying TokenParagraph.
For example:
.... and there is a [this is where it miss steps]
Edit:
When trying (\n|^).*?(?=\n|$)
I get,
Preprocessing executable 'Main' for lexing-0.1.0.0.. Tokens.x:22:8: parse error
%wrapper "basic"
$whiteSpace = [\ \t \f \v \r]
$digit = 0-9
$alpha = [a-zA-Z]
tokens :-
$whiteSpace+ ;
$digit+ ;
(\n|^).*\?(\?=\n|$) { \s -> TokenParagraph }