<?xml version="1.0" encoding="ISO-8859-15"?>
<rss version="2.0"><channel>
<title>heuristinen html-konvertoija</title>
<link>http://sange.fi/~atehwa/cgi-bin/piki.cgi/</link>
<description>Recent changes in heuristinen html-konvertoija</description>
<item><title>heuristinen html-konvertoija</title>
<link>http://sange.fi/~atehwa/cgi-bin/piki.cgi/heuristinen%20html-konvertoija</link>
<guid>http://sange.fi/~atehwa/cgi-bin/piki.cgi/#1119876100</guid>
<description>&lt;p&gt;&lt;ins&gt;[heuristiikka]&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Lopputuloksena olevan sivun pitäisi muistuttaa (ainakin 
semanttisesti) sen raakatekstistä lähdemuotoa. Esimerkiksi *tähdet* 
sanan ympärillä merkitsisivät lihavointia, ja niin edelleen. Yhdistän 
ehkä seuraavan versioni txt2html:sta tähän wikiin.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;(Asiaan liittyen: [strukturoitu teksti] on myös HTML:ksi 
konvertoitavaa raakatekstiä, mutta epäheuristista sellaista.)&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Pari huomautusta:&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;* hierarkkiset listat ovat turhia * sisennykset ovat 
ongelmallisia * taulukoita ja esimuotoiltua tekstiä on hyvin vaikeaa 
tunnistaa kunnolla raakatekstistä&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Olen muuten nyt tekemässä tällaista säätöä. Se eroaa vanhasta 
txt2html:stani siten, että se on hajotettu moneksi ohjelmaksi, joista 
tehdään [filtteriputki]. Tämä sallii enemmän säätöä ja 
kustomoitavuutta.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Tällä hetkellä elementtejä ovat: * [entify], joka muuntaa 
HTML:n kannalta erityiset merkit entiteeteiksi * litws, joka muuntaa 
[whitespace]n sellaiseksi, että se näyttää samalta HTML:ssä * normlbr, 
joka poistaa \r:t ja tyhjän rivien lopusta sekä turhat romauttaa 
useamman kuin yhden peräkkäisen tyhjän linjan * inlmarkup, joka muuntaa 
normaalit ''tehostuskeinot'' niitä vastaaviksi tageiksi * blkmarkup, 
joka päättelee kappaleen tyypin ja sen perusteella merkitsee ne 
block-tageilla.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Kaikille näille on yhteistä, että niiden prosessoinnilta voi 
suojata sivun osioita kirjoittamalla ne [[[:lla (ja) ]]]:lla alkavien 
rivien väliin. Kuitenkin, jos [[[:n perässä on utilin oma nimi, se 
prosessoi kyseiset rivit. Tällä tavoin käyttäjä voi itse määrittää, 
mitä filttereitä sovelletaan mihinkin osaan tekstiä. Lisäksi on 
filtteri rmescape, joka vain poistaa nämä rivit. (Se on myös ainoa 
filtteri, jolla on oikeus koskea kyseisiin riveihin.)&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Tällä hetkellä kaikki ylläolevat ovat sed-skriptejä, paitsi 
[entify], joka on C-ohjelma. blkmarkup saattaa kehittyessään 
osoittautua tarpeelliseksi tehdä awk:lla tai jollain muulla 
kehittyneemmällä. litws:lle ja normlbr:lle en itse asiassa ole keksinyt 
järkevää käyttöä, sillä inhoan &lt;br&gt;:a ja haluan koskea lähdetekstiin 
niin vähän kuin mahdollista, jotta siinä säilyy alkuperäinen muotoilu 
lisättyjen tagien ohella.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Suunniteltuja filttereitä ovat: * ipreproc, joka sisällyttää 
[[kansio/tiedosto]]-notaatiolla kansio/tiedosto-tiedoston * wikilink, 
joka lisää WikiTyyppiset [linkit] (sekä mahdollisesti säätöjä kuten 
google: -notaation) * rmcomment, joka poistaa kommentit (blokit 
merkitty [[[ comment jne) (voisi yhdistää rmescapeen) (TEHTY) * 
extrmeta, joka etsii dokumentista metadatan * hdltable, joka tekee 
dokumentin otsikoista linkkiluettelon dokumentin alkuun * sekä 
mahdollisesti vielä jonkinlaisia yksinkertaisia 
ohjelmointikielitoteutuksia - varokaa vain...&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Näille kaikille voisi ehkä vielä väsätä hallintaprosessin, joka 
ekstrahoi metadatasta tiedon, mitä kaikkia filttereitä pitää ajaa, ja 
ajaa ne.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;[kategoria: projektit]&lt;/ins&gt;

</description>
<pubDate>Mon, 27 Jun 2005 12:41:40 +0000</pubDate>
</item>

</channel></rss>
