perjantai 6. helmikuuta 2015

Tuskailua PDF-tiedostojen kanssa

Kukapa meistä ei olisi joskus tuskaillut PDF-dokumenttien kanssa. Varsinkin tekstin kopiointi PDF-dokumentista leikepöydän kautta esimerkiksi Powerpoint-esitykseen tai Word-dokumenttiin voi tuottaa mielenkiintoisia ilmiöitä.

Kirjoitetaan kolmen kappaleen dokumentti Word 2010:lla:

Testidokumentti.
Tallennetaan se PDF-muotoon ja avataan, kaikki näyttää olevan kunnossa:

PDF-versio ihan OK.
Maalataan kappaleet ja siirretään ne leikepöydän kautta Powerpoint-dialle, jolloin tulos on tämä:

Copy/paste ok, vaikkakin ilman fontteja.
Tehdäänpä sama Macissä ja OS X:ssä (uusin Yosemite-versio).

Kirjoitetaan teksti Wordiin (nimenomaan kirjoitetaan, ei lueta Windows-puolella tehtyä dokumenttia, jotteivät sen asetukset vaikuta tulokseen):

Dokumentti Macin Wordissä.

Tallennetaan PDF-formaattiin ja avataan OS X:n omalla Esikatselu-sovelluksella:

PDF-versio avattuna Macissä. 
Maalataan teksti, avataan Powerpoint ja siirretään kolme kappaletta leikepöydän kautta dioille. Kaikki OK, vaikka fontit eivät siirrykään:

Leikepöydältä Powerpointiin.
Mutta sitten tulee todellinen yllätys. Siirretään kohdistin minkä tahansa ä- tai ö-merkin perään:

Kohdistin ä:n perässä.
Painetaan Backspace-näppäintä ja havaitaan, ettei ä-kirjain poistukaan, kuten pitäisi, vaan muuttuu jostain syystä a-kirjaimeksi:

Backspace muuttaa ä:n a:ksi.
Vasta toinen painallus poistaa a-kirjaimeksi muuttuneen ä:n:

Ä on vihdoin poistunut.
Sama toistuu kaikkien ääkkösten kohdalla, olivatpa ne sitten sanan lopussa tai keskellä. Itse asiassa huomasin ilmiön juuri tällaisessa tilanteessa, kun eräästä saamastani PDF-tiedostosta poistetut ääkköset jättivät pisteet jäljelle:

Mikähän merkki tämä on? T ja kaksi pistettä.
Windowsissa vastaavaa ilmiötä ei esiinny, siinä ä- ja ö-kirjaimet poistuvat kuten pitääkin.

PDF:n pitäisi tehdä dokumenteista alustariippumattomia, sehän oli alunperin koko tekniikan idea. Kokeillaan siis OS X:n tuottaman PDF:n lukemista Windowsin Powerpointiin ja päinvastoin.

Macistä Windowsiin.
Hmm... onpa erikoista: ensimmäinen kappale on siirtynyt rivi kerrallaan, mutta loput kaksi kappaletta ovat siirtyneet sana kerrallaan.

Windowsista Maciin PDF-teksti siirtyy oikein.
Teksti siirtyy oikein edellä mainittua ääkkösihmettä lukuunottamatta.

Mitä tästä kaikesta voi päätellä? Ainakin sen, että PDF on rikki. Olisi korkea aika saada tilalle jotain parempaa. PDF-tiedostomuoto on yli 20 vuotta vanha eikä sovellu lainkaan tämän päivän tarpeisiin. Siinä tekstit eivät ole kokonaisuuksia, joten kappaleiden tai sivujen maalaaminen voi osoittautua mahdottomaksi, koska tekstin merkintä hyppii miten sattuu. Rivinvaihdot eivät ole pehmeitä vaan kovia, joten tekstiä joutuu muokkaamaan käsin.

Niin kauan kuin olemme PDF:n vankeja joudumme taistelemaan epämääräisten ongelmien kanssa, jotka vielä pahenevat sekaympäristöissä. Eikä käyttäjäparka voi tietää, millä välineillä hänen saamansa PDF on alunperin tuotettu.

Huokaus.


7 kommenttia:

  1. Kokeilepa muuten toistuuko ongelma ruotsalaisen å:n kanssa? Adoben sivuilta löytyvässä dokkarissa se on omana erillisenä "glyyfinä", mutta ä ja ö muodostetaan a:sta ja o:sta, joihin lisätään "ään tai öön pisteet".

    http://www.adobe.com/type/pdfs/characcessmac.pdf

    Erikoinen juttu kyllä miksi Macin PDF:ssä olisi noin, mutta ehkä tällekin on joku looginen selitys. Tai sitten ei. Ei kai Macin merkistössä sinänsä ole mitään ihmeellistä, tietääkseni.

    Olen joskus ohjelmointihommissa joutunut pyörittelemään näitä, siis "poistamaan" nuo diacriticsit (ään pisteet ja vastaavat, eli é => e jne.), jotta "ääkköset" olisi merkkijonovertailussa sama kuin "aakkoset". Siihen löytyi ainakin Javasta valmis tuki.

    VastaaPoista
  2. Applen (joissakin) ohjelmissa ja toiminnoissa on Unicoden NFD-normalisointimuoto, jossa tarkkeelliset kirjaimet hajotetaan perusmerkin ja tarkkeen yhdistelmäksi. Olen huomannut, että tiedostonnimet tallennetaan NFD:n mukaisessa muodossa. Ehkä myös leikepöydässä on samanlainen?

    http://www.unicode.org/reports/tr15/

    VastaaPoista
  3. Kokeilun perusteella Macissä å käyttäytyy samoin kuin ä ja ö.

    VastaaPoista
  4. Ohjelmien muokkaustoiminnot pitäisi kuitenkin tehdä sellaiseksi, että perusmerkki ja erillinen tarkemerkki poistuvat kerralla, koska ohjelman käyttäjän näkökulmasta on vain yksi merkki.

    VastaaPoista
  5. Itselläni on tullut vastaan tilanteita joissa joidenkin yritysten esitteitä tai tarjouksia on pdf-muodossa nettisivuilla. Kun näitä tiedostoja sitten avaa eri version adobe reader ohjelmalla, näkyvät ne erilailla. Jollain versiolla puuttuu hintoja, jollain sanoja/merkkejä ja jollain linkkejä. Vain uusimmalla versiolla näkyi kaikki tiedot oikein. Ja adobe reader ei edes päivity automaattisesti.

    VastaaPoista
  6. Ei se PDF mitään rikki ole. Otetaanpa huomioon, että PDF ei ole luotu tekstin siirtämiseksi uudelleen muokattavaksi, vaan alkuperäinen idea on juuri päinvastainen. Tokihan se olisi mukavaa, jos toimisi myös toisin päin.

    VastaaPoista
  7. Se oli PDF:n alkuperäinen tarkoitus yli 20 vuotta sitten. Lukuisten versioiden ja uusien ominaisuuksien myötä tämäkin käyttötarkoitus olisi voitu ottaa huomioon, onhan maailma muutenkin muuttunut melkoisesti "ASCII jail" ajoista.

    VastaaPoista