Σάββατο, 25 Μαΐου 2013

Σχετικά με την ταξινόμηση

Εδώ και μια δεκαετία περίπου χρησιμοποιώ το κορυφαίο ίσως από κάθε άποψη νοτιοαφρικανικής προέλευσης λεξικογραφικό υπερεργαλείο TshwaneLex για τις καθημερινές και συνηθισμένες εργασίες μου πάνω στο PomLex.  Και δεν είναι ότι το συγκεκριμένο εργαλείο δεν παρέχει τη δυνατότητα προσαρμοσμένης ταξινόμησης.  Την παρέχει και με τον καλύτερο τρόπο ίσως.  Αλλιώς τί σόι εργαλείο θα ήταν;  Απλώς η δυνατότητα αυτή παρέχεται σε επίπεδο λήμματος.   Για πολύ εξειδικευμένες εργασίες όμως, όπως η ενδολημματική ταξινόμηση σε μια δενδροειδή δομή ενός λήμματος της παρακάτω μορφής, τα πράγματα γίνονται αρκετά περίπλοκα.


Αυτό, βέβαια, μέσα από το περιβάλλον του TshwaneLex.  Αν τώρα θελήσει κανείς να μεταφέρει την εργασία του εκτός περιβάλλοντος TshwaneLex και να χρησιμοποιήσει εργαλεία δικά του ή τρίτων κατασκευαστών για περαιτέρω επεξεργασία τί γίνεται;  Στην περίπτωση της Πομακικής άμεση υποστήριξη, απλά, δεν παρέχεται από κανέναν.  Η δε έμμεση συναρτάται με την ατομική πρωτοβουλία και δυνατότητα αλλά και τους στόχους που έχει ο καθένας.

Η δωρεάν και ανοιχτού κώδικα βιβλιοθήκη ICU (International Components for Unicode) της IBM είναι μια απ’ αυτές που χρησιμοποιείται ευρέως από τους προγραμματιστές για τον χειρισμό κειμένου Unicode.  Μερική χρήση των δυνατοτήτων της βιβλιοθήκης μπορεί να κάνει και το SQLite για την ταξινόμηση, αν του το ζητήσει κανείς (μεταγλώττιση με την αντίστοιχη επιλογή - ενεργοποίηση).  Αυτή θα ήταν μια καλή λύση ομολογώ, έστω και μεσοβέζικη, αν, βεβαίως, ήμουν γκουρού της C και μπορούσα να το θέσω σε λειτουργία αυτό το πράγμα.  Η αλήθεια είναι ότι αποπειράθηκα, ασχέτως αποτελέσματος.

Η επόμενη κίνηση ήταν να δοκιμάσω την απ’ ευθείας χρήση της βιβλιοθήκης μέσα από τα δικά μου C++ εργαλεία.  Τα πρώτα αποτελέσματα δεν άργησαν να φανούν και ήταν ό,τι ακριβώς έψαχνα.  Προσαρμοσμένη ταξινόμηση, ανεξάρτητη από λειτουργικά συστήματα, λεξικογραφικά εργαλεία, επεξεργαστές κειμένου κλπ.  Να ‘ναι καλά όλοι αυτοί οι άνθρωποι που δούλεψαν για το ICU.




Κάποια άλλη φορά θα γράψω για τον συλλαβισμό και θα σας δώσω μια μίνι εφαρμογή επίδειξης των δυνατοτήτων ταξινόμησης και συλλαβισμού της Πομακικής.


Τετάρτη, 22 Μαΐου 2013

Το πρωινό "ξύπνημα" της φύσης

Απολαμβάνοντας τη μοναδική και "άγρια" αίσθηση ομορφιάς του πρωινού "ξυπνήματος" της φύσης, όπου χελιδόνια και λογής λογής δασοπούλια στήνουν ένα ξέφρενο πανηγύρι στην αυλή του σπιτιού σου με εξωτικές μουσικές και χορούς και σαν φυσικό ξυπνητήρι σε καλούν να σηκωθείς από το κρεββάτι σου και να απολαύσεις έναν υπέροχο καφέ μαζί τους, προτού ξεκινήσεις για την άσκηση της επιταγμένης σου υπηρεσίας.


Σάββατο, 18 Μαΐου 2013

Αναθεώρηση του αλφαβήτου και διατάξεις πληκτρολογίου

Καλωσορίσατε στο ιστολόγιο μου

Το PomLex μετά από μια μακρά περίοδο «ξεκούρασης» είναι και πάλι στον αέρα.  Αυτή τη φορά χωρίς επέκταση .com, .gr ή οτιδήποτε άλλο, νέτο - σκέτο.  Ο σκοπός του, φυσικά, δεν είναι άλλος από τον αρχικό, η καταγραφή, δηλαδή, η ανάδειξη και η προώθηση της Πομακικής.

Πρόσφατα σε μια δοκιμαστική προσπάθεια εξαγωγής και σελιδοποίησης του θρυλούμενου χιλιοσέλιδου λεξικού που ετοιμάζω βρέθηκα αντιμέτωπος με διάφορα προβλήματα αλλά και προκλήσεις, όπως η ταξινόμηση και ο συλλαβισμός.  Μετά από κάμποσα ξενύχτια και στην προσπάθεια μου να βρω κάποια ικανοποιητική και αποδεκτή λύση, πείστηκα για την ανάγκη της αναθεώρησης του αλφαβήτου και του συστήματος γραφής γενικότερα, στην οποία και προχώρησα.

Με τη βοήθεια του Microsoft Keyboard Layout Creator έφτιαξα τρεις προσαρμοσμένες και διαφορετικές ως προς τη γραφή διατάξεις πληκτρολογίου, μια για τη λατινική, μια για την κυριλλική και μια για την ελληνική.  Οι διατάξεις αυτές κάνουν χρήση των νέων δυνατοτήτων που παρέχουν οι γραμματοσειρές OpenType και προϋποθέτουν την ύπαρξη αυτών.  Η τεχνολογία αυτή, βέβαια, είναι σχετικά καινούργια και τυγχάνει περιορισμένης ακόμα υποστήριξης από τα διάφορα προγράμματα και συστήματα.   Αν δεν κάνω λάθος, η ίδια η Microsoft μόλις από το Office 2010 αρχίζει να παρέχει κάποια υποστήριξη για την τεχνολογία αυτή.

Να σημειώσω εδώ ότι οι μόνες γραμματοσειρές που εντόπισα με πλήρη υποστήριξη της λατινικής και της κυριλλικής ( Andika, Charis SIL, Doulos SIL ), όχι όμως και της ελληνικής, είναι μερικές απ’ αυτές που έχει σχεδιάσει και αναπτύξει μαζί με μια πληθώρα άλλων εργαλείων ο SIL International.

Έχετε υπόψη σας ότι τα διάφορα τονικά και άλλα σημάδια τοποθετούνται όπως όταν γράφουμε με το χέρι, δηλαδή γράφουμε πρώτα τον βασικό χαρακτήρα και εν συνεχεία επιθέτουμε το σημάδι ή τα σημάδια.

Παραθέτω εδώ κάποια στιγμιότυπα οθόνης (screenshots), καθώς και τα αντίστοιχα πακέτα εγκατάστασης των διατάξεων πληκτρολογίου, για όποιον θέλει να τα δοκιμάσει και να μας πει την εμπειρία του.  Είναι απαραίτητη η εγκατάσταση των προαναφερόμενων γραμματοσειρών.  Κάποιες γραμματοσειρές της Microsoft που προεγκαθίστανται μαζί με τα Windows 7, όπως η Calibri και η Cambria, παρέχουν περιορισμένη υποστήριξη μόνο.













Κατεβάστε τα πακέτα εγκατάστασης

Λατινικό (md5: a2036ba355651de95510e61060f4fcf8)
Κυριλλικό (md5: ed24c7dceaab627b983a2690ad6b1bc8)
Ελληνικό (md5: 5184ba104b5e52dc7fe10e021afc029a)


Για την ταξινόμηση και τον συλλαβισμό θα γράψω σε επόμενο άρθρο μου.




Να περνάτε καλά

Ριτβάν