PomLex: Δεκεμβρίου 2015

Σάββατο 5 Δεκεμβρίου 2015

Μικρά προγραμματιστικά - Μέγιστο Κοινό Πρόθεμα (Longest Common Prefix) και η σύμπτυξη των λημμάτων ενός λεξικού με τη βοήθεια μιας δομής Ternary Tree

Ας υποθέσουμε ότι γράφετε ένα μορφολογικό (ορθογραφικό) λεξικό μιας γλώσσας με αρκετά πλούσια μορφολογία που περιλαμβάνει μερικά εκατομμύρια τύπους λέξεων και θέλετε να το εκδώσετε σε έντυπη μορφή.

Η πλήρης ανάπτυξη όλων αυτών των τύπων, εκτός του ότι δεν θα προσέφερε κάτι ουσιαστικό, θα είχε σαν αποτέλεσμα να καταλήξετε σε ένα ογκοδέστατο ή και πολύτομο έργο με πολλαπλάσιο κόστος εκτύπωσης και διαχείρισης συνολικότερα. Ένας τρόπος να περιορίσει κανείς τον όγκο ενός τέτοιου έργου θα ήταν να συμπεριλάβει μόνο κάποιους βασικούς τύπους λέξεων με την προϋπόθεση ότι οι υπόλοιποι μπορούν να αναπαραχθούν εύκολα με την υπαγωγή τους σε κάποιους κανόνες. Εάν όμως δεν συντρέχει η προηγούμενη προϋπόθεση για κάποιον λόγο, επειδή λ.χ. η καταγραφή της γλώσσας μπορεί να βρίσκεται σε εξέλιξη ακόμη και οι γραμματικοί της κανόνες δεν έχουν οριστικοποιηθεί και αποκρυσταλλωθεί πλήρως, τότε το μόνο που απομένει είναι η προσπάθεια της σύμπτυξης αυτών των τύπων κατά τέτοιο τρόπο που δεν θα απέβαινε σε βάρος της αναγνωσιμότητας του λεξικού. Κάτι τέτοιο, βέβαια, για να γίνει μεμονωμένα και με το χέρι, θα απαιτούσε ανυπολόγιστο χρόνο και κόπο από την πλευρά του συγγραφέα, για να μην πω ότι θα ισοδυναμούσε με αυτοκτονία. Για την καλή ή κακή μας τύχη όμως έχουμε διαβεί ήδη το κατώφλι του 21ου αιώνα και η τεχνολογία μπορεί να παίξει τον δικό της καταλυτικό ρόλο σε μια τέτοια προσπάθεια.

Αν τυχαίνει να ασχολείστε με τον προγραμματισμό και την επεξεργασία κειμένου ή κάτι παραπλήσιο, ο όρος Longest Common Prefix (Μέγιστο Κοινό Πρόθεμα) θα πρέπει να σας είναι οικείος. Η μέγιστη, δηλαδή, ριζική υποσυμβολοσειρά που μοιράζεται μια ομάδα τύπων λέξεων. Έτσι, για παράδειγμα, οι τύποι "βιβλίο", "βιβλιοπωλείο", "βιβλιοπώλης", "βιβλιοδεσία", "βιβλικός", "βιβλιοθήκη", "βιβλιοθηκονόμος" έχουν ως μέγιστο κοινό πρόθεμα την υποσυμβολοσειρά "βιβλ". Αν προσπαθήσουμε να συμπτύξουμε τους παραπάνω τύπους αντικαθιστώντας το πρόθεμα με μια παύλα, το αποτέλεσμα θα έμοιαζε κάπως έτσι: "βιβλ -ίο, -ιοπωλείο, -ιοπώλης, -ιοδεσία, -ικός, -ιοθήκη, -ιοθηκονόμος". Βλέπουμε ότι αμέσως αμέσως έχουμε εξοικονομήσει ΜΗΚΟΣ ΠΡΟΘΕΜΑΤΟΣ (4) x ΑΡΙΘΜΟΣ ΛΕΞΕΩΝ (7) – ΑΡΙΘΜΟΣ ΛΕΞΕΩΝ (παύλα) – ΜΗΚΟΣ ΠΡΟΘΕΜΑΤΟΣ = 17 χαρακτήρες. Φανταστείτε την εξοικονόμηση χώρου που επιτυγχάνεται όταν μιλάμε για εκατομμύρια λέξεων.

Κατά καιρούς, τώρα, διάφοροι ειδικοί (μαθηματικοπληροφορικοί) έχουν αναπτύξει διάφορους αλγορίθμους για τον υπολογισμό του Μέγιστου Κοινού Προθέματος ενός συνόλου συμβολοσειρών. Μια γρήγορη αναζήτηση στο διαδίκτυο θα σας πείσει γι' αυτό. Κάποιους απ' αυτούς τους έχω δοκιμάσει και ο ίδιος με κάποια επιτυχία. Στην περίπτωση της Πομακικής όμως κι επειδή εγώ προσωπικά τουλάχιστον χρησιμοποιώ "γράμματα" που αποτελούνται από πολλαπλούς συνδυάσιμους χαρακτήρες (το γράμμα "ä́" π.χ. αποτελείται από τους απλούς χαρακτήρες U+0061 [Λατινικό πεζό γράμμα Α], U+0308 [Συνδυάσιμα διαλυτικά] και U+0301 [Συνδυάσιμη οξεία] ) αλλά κι επειδή τυχαίνει να έχω εξοικειωθεί αρκετά με τη δομή ternary tree, θέλησα να δοκιμάσω και κάποιες άλλες μεθόδους που βασίζονται στη δομή αυτή με την εμπλοκή και των κανονικών εκφράσεων (Regular Expressions), τη χρήση των οποίων επιβάλλει η ανάγκη της αναγωγής των πολυχαρακτήρων αυτών σε απλούς.

Το σύνολο του πηγαίου κώδικα της υλοποίησης (C++) περιλαμβάνεται στο αρχείο pdf που ακολοθεί και μπορεί οποιοσδήποτε να το χρησιμοποιήσει κατά την κρίση του.
Στο τέλος της ανάρτησης θα βρείτε τον σύνδεσμο σε μια εφαρμογή επίδειξης.

Εφαρμογή επίδειξης

Εγγραφή σε: Αναρτήσεις (Atom)

Για τον Ριτβάν

Είναι απόφοιτος της Ειδικής Παιδαγωγικής Ακαδημίας Θεσσαλονίκης (διετούς φοιτήσεως) και από το 2008 έως το 2014 εργάστηκε στο Μ/κό Γυμνάσιο - Λύκειο του Ιεροσπουδαστηρίου Εχίνου ως διοικητικό προσωπικό (Γραμματειακή υποστήριξη). Κατά τα σχολικά έτη 2014 - 2015 και 2015 - 2016 τελών σε άδεια άνευ αποδοχών αιτήθηκε τη μετάταξη του σε άλλη δημόσια υπηρεσία, μη δυνάμενος να ανταποκριθεί στα καθήκοντα του ως δασκάλου στο 4/θ Μειονοτικό Δημοτικό Σχολείο του Δημαρίου εξαιτίας της ανεπάρκειας του στην τουρκική γλώσσα, χωρίς να ικανοποιηθεί το αίτημα του για καθαρά πολιτικούς λόγους. Κατόπιν τούτου η αποχή από τα καθήκοντα του ήταν μονόδρομος για τον ίδιο. Παραπέμφθηκε τρεις φορές ενώπιον του Α/θμιου Πειθαρχικού Συμβουλίου της Περιφερειακής Διεύθυνσης Πρωτοβάθμιας & Δευτεροβάθμιας Εκπαίδευσης Ανατολικής Μακεδονίας & Θράκης από τον πειθαρχικώς προϊστάμενο του και Διευθυντή της Διεύθυνσης Πρωτοβάθμιας Εκπαίδευσης Ξάνθης κ. Μάρκου Αναστάσιο για το παράπτωμα της αδικαιολόγητης αποχής από τα καθήκοντα του χωρίς δυνατότητα νομικής υπεράσπισης εξαιτίας της "ευγενικής" άρνησης των δικηγόρων για τη νομική εκπροσώπηση του ενώπιον των πειθαρχικών οργάνων του ελληνικού δημοσίου. Στις 23/5/2018 του επιδόθηκε από τον Αστυνομικό Σταθμό Μύκης το υπ' αριθμό Π.Σ. 85/30-04-2018 έγγραφο του Πρωτοβάθμιου Πειθαρχικού Συμβουλίου της Περιφερειακής Διεύθυνσης Πρωτοβάθμιας & Δευτεροβάθμιας Εκπαίδευσης Ανατολικής Μακεδονίας & Θράκης, με το οποίο του κοινοποιήθηκε η πειθαρχική ποινή της οριστικής παύσης.

Από τα φοιτητικά του χρόνια (δύο δεκαετίες περίπου) στον ελεύθερο χρόνο του ασχολείται με την καταγραφή και κωδικοποίηση της μητρικής τους γλώσσας, της Πομακικής. Παράλληλα, σε ερασιτεχνικό επίπεδο και για τις ανάγκες του λεξικού κυρίως, ασχολείται και με τους υπολογιστές γενικότερα και τον προγραμματισμό ειδικότερα (html, xml, asp, asp.net, php, vb.net, c++, sql).

Κατά τη διάρκεια της στρατιωτικής του θητείας και στα πλαίσια του προγράμματος της Κοινωνικής Προσφοράς των Ενόπλων Δυνάμεων εργάστηκε μαζί με μια ομάδα φιλολόγων και συστρατιωτών του για τη σύνταξη του Πομακικού – Ελληνικού Λεξικού, του Ελληνικού – Πομακικού Λεξικού, της Γραμματικής και του Συντακτικού της Πομακικής Γλώσσας, τα οποία εκδόθηκαν από το Δ’ Σώμα Στρατού υπό τη Διοίκηση του Στρατηγού Μανούσου Παραγιουδάκη.

Εκτός από την Πομακική και την Ελληνική, γνωρίζει λίγα Βουλγαρικά, λίγα Τουρκικά και κατανοεί κάποια γραπτά Αγγλικά.

Προτού διοριστεί στο Δημόσιο έχει εργαστεί στον τραπεζικό τομέα (υπάλληλος στην πρώην Εθνική Κτηματική Τράπεζα της Ελλάδος), στον κατασκευαστικό (εργάτης οικοδόμος, βοηθός τοπογράφου) και στον τομέα της τυπογραφίας.

Είναι παντρεμένος και πατέρας τεσσάρων παιδιών.

Επικοινωνία: ritvank@gmail.com

Σελίδες

Σάββατο 5 Δεκεμβρίου 2015

Μικρά προγραμματιστικά - Μέγιστο Κοινό Πρόθεμα (Longest Common Prefix) και η σύμπτυξη των λημμάτων ενός λεξικού με τη βοήθεια μιας δομής Ternary Tree