(toiminnot)

hwechtla-tl: Heuristinen HTML-konvertoija

Kierre.png

Mikä on WikiWiki?
nettipäiväkirja
koko wiki (etsi)
viime muutokset


heuristiikka

Lopputuloksena olevan sivun pitäisi muistuttaa (ainakin semanttisesti) sen raakatekstistä lähdemuotoa. Esimerkiksi *tähdet* sanan ympärillä merkitsisivät lihavointia, ja niin edelleen. Yhdistän ehkä seuraavan versioni txt2html:sta tähän wikiin.

(Asiaan liittyen: strukturoitu teksti on myös HTML:ksi konvertoitavaa raakatekstiä, mutta epäheuristista sellaista.)

Pari huomautusta:

Olen muuten nyt tekemässä tällaista säätöä. Se eroaa vanhasta txt2html:stani siten, että se on hajotettu moneksi ohjelmaksi, joista tehdään filtteriputki. Tämä sallii enemmän säätöä ja kustomoitavuutta.

Tällä hetkellä elementtejä ovat:

Kaikille näille on yhteistä, että niiden prosessoinnilta voi suojata sivun osioita kirjoittamalla ne [[[:lla (ja) ]]]:lla alkavien rivien väliin. Kuitenkin, jos [[[:n perässä on utilin oma nimi, se prosessoi kyseiset rivit. Tällä tavoin käyttäjä voi itse määrittää, mitä filttereitä sovelletaan mihinkin osaan tekstiä. Lisäksi on filtteri rmescape, joka vain poistaa nämä rivit. (Se on myös ainoa filtteri, jolla on oikeus koskea kyseisiin riveihin.)

Tällä hetkellä kaikki ylläolevat ovat sed-skriptejä, paitsi entify, joka on C-ohjelma. blkmarkup saattaa kehittyessään osoittautua tarpeelliseksi tehdä awk:lla tai jollain muulla kehittyneemmällä. litws:lle ja normlbr:lle en itse asiassa ole keksinyt järkevää käyttöä, sillä inhoan <br>:a ja haluan koskea lähdetekstiin niin vähän kuin mahdollista, jotta siinä säilyy alkuperäinen muotoilu lisättyjen tagien ohella.

Suunniteltuja filttereitä ovat:

Näille kaikille voisi ehkä vielä väsätä hallintaprosessin, joka ekstrahoi metadatasta tiedon, mitä kaikkia filttereitä pitää ajaa, ja ajaa ne.

kategoria: projektit


kommentoi (viimeksi muutettu 27.06.2005 15:41)