heuristinen html-konvertoija

Mon, 27 Jun 2005 12:41:40 +0000

[heuristiikka]

Lopputuloksena olevan sivun pit�isi muistuttaa (ainakin semanttisesti) sen raakatekstist� l�hdemuotoa. Esimerkiksi *t�hdet* sanan ymp�rill� merkitsisiv�t lihavointia, ja niin edelleen. Yhdist�n ehk� seuraavan versioni txt2html:sta t�h�n wikiin.

(Asiaan liittyen: [strukturoitu teksti] on my�s HTML:ksi konvertoitavaa raakateksti�, mutta ep�heuristista sellaista.)

Pari huomautusta:

* hierarkkiset listat ovat turhia * sisennykset ovat ongelmallisia * taulukoita ja esimuotoiltua teksti� on hyvin vaikeaa tunnistaa kunnolla raakatekstist�

Olen muuten nyt tekem�ss� t�llaista s��t��. Se eroaa vanhasta txt2html:stani siten, ett� se on hajotettu moneksi ohjelmaksi, joista tehd��n [filtteriputki]. T�m� sallii enemm�n s��t�� ja kustomoitavuutta.

T�ll� hetkell� elementtej� ovat: * [entify], joka muuntaa HTML:n kannalta erityiset merkit entiteeteiksi * litws, joka muuntaa [whitespace]n sellaiseksi, ett� se n�ytt�� samalta HTML:ss� * normlbr, joka poistaa \r:t ja tyhj�n rivien lopusta sek� turhat romauttaa useamman kuin yhden per�kk�isen tyhj�n linjan * inlmarkup, joka muuntaa normaalit ''tehostuskeinot'' niit� vastaaviksi tageiksi * blkmarkup, joka p��ttelee kappaleen tyypin ja sen perusteella merkitsee ne block-tageilla.

Kaikille n�ille on yhteist�, ett� niiden prosessoinnilta voi suojata sivun osioita kirjoittamalla ne [[[:lla (ja) ]]]:lla alkavien rivien v�liin. Kuitenkin, jos [[[:n per�ss� on utilin oma nimi, se prosessoi kyseiset rivit. T�ll� tavoin k�ytt�j� voi itse m��ritt��, mit� filttereit� sovelletaan mihinkin osaan teksti�. Lis�ksi on filtteri rmescape, joka vain poistaa n�m� rivit. (Se on my�s ainoa filtteri, jolla on oikeus koskea kyseisiin riveihin.)

T�ll� hetkell� kaikki yll�olevat ovat sed-skriptej�, paitsi [entify], joka on C-ohjelma. blkmarkup saattaa kehittyess��n osoittautua tarpeelliseksi tehd� awk:lla tai jollain muulla kehittyneemm�ll�. litws:lle ja normlbr:lle en itse asiassa ole keksinyt j�rkev�� k�ytt��, sill� inhoan
:a ja haluan koskea l�hdetekstiin niin v�h�n kuin mahdollista, jotta siin� s�ilyy alkuper�inen muotoilu lis�ttyjen tagien ohella.

Suunniteltuja filttereit� ovat: * ipreproc, joka sis�llytt�� [[kansio/tiedosto]]-notaatiolla kansio/tiedosto-tiedoston * wikilink, joka lis�� WikiTyyppiset [linkit] (sek� mahdollisesti s��t�j� kuten google: -notaation) * rmcomment, joka poistaa kommentit (blokit merkitty [[[ comment jne) (voisi yhdist�� rmescapeen) (TEHTY) * extrmeta, joka etsii dokumentista metadatan * hdltable, joka tekee dokumentin otsikoista linkkiluettelon dokumentin alkuun * sek� mahdollisesti viel� jonkinlaisia yksinkertaisia ohjelmointikielitoteutuksia - varokaa vain...

N�ille kaikille voisi ehk� viel� v�s�t� hallintaprosessin, joka ekstrahoi metadatasta tiedon, mit� kaikkia filttereit� pit�� ajaa, ja ajaa ne.

[kategoria: projektit]