Βλέπετε μια παλαιότερη έκδοση της σελίδας!


Βιβλιοθήκη του Ίρηκος


Εισαγωγή

Η «Βιβλιοθήκη του Ίρηκος» είναι μια Διαδικτυακή βιβλιοθήκη ηλεκτρονικών βιβλίων.

Έχω σκοπό να περιέχει:

  1. Τα βιβλία της συλλογής 100 ελληνικών βιβλίων για την ελληνική ιστορία και διανόηση
  2. Ό,τι βιβλίο θα ταίριαζε στην παραπάνω λίστα, αλλά δεν χώρεσε στα 100 βασικότερα
  3. Χριστιανικά βιβλία, ειδικά Πατερικά κείμενα, και σκαναρισμένα παλαιότερα δυσεύρετα και εκτός κυκλοφορίας βιβλία
  4. Βιβλία για τις αιρέσεις, τον αποκρυφισμό, τις μυστικές εταιρίες, και τις μυστικές υπηρεσίες
  5. Βιβλία για την αυτάρκεια και την επιβίωση

Οδηγίες χρήσης

⚠️ Για την προβολή συγκεκριμένων κατηγοριών βιβλίων

Κάτω από την μπάρα αναζήτησης, δεξιά της μπλε μπάρας που λέει «50G+», πάτα το εικονίδιο με τους δύο φακέλους, που λέει δίπλα «Filter Path», και πάτα την κατηγορία που θες. Τώρα, βλέπεις και κάνεις αναζήτηση, μόνο στα βιβλία της συγκεκριμένης κατηγορίας. Για να επιστρέψεις στο να βλέπεις όλα τα βιβλία, σβήσε την γραμμένη κατηγορία, από την μπάρα που προηγούμενως έλεγε «Filter Path».


⚠️ Για την αναζήτηση συγκεκρίμενης φράσης, βάζουμε εισαγωγικά “”

"new world order"


⚠️ Η αναζήτηση βγάζει μόνο επακριβώς τη λέξη που ψάχνεις, με τον συγκεκριμένο τονισμό.

Π.χ. η αναζήτηση

ρωμαῖοι

δεν περιλαμβάνει μέσα και τα αποτελέσματα του

ρωμαίοι

ή

ρωμαιοι

Μια λύση για το συγκεκριμένο πρόβλημα είναι να γράφεις

ρωμαῖοι OR ρωμαίοι


⚠️ Η αναζήτηση βγάζει μόνο επακριβώς τη λέξη που ψάχνεις, και όχι κοντινές της λέξεις.

Π.χ. η αναζήτηση

ρωμηός

δεν θα σου δώσει και τα αποτελέσματα της αναζήτησης

ρωμηών

Οπότε, χρειάζεται εφευρετικότητα στις αναζητήσεις.


⚠️ Για τη μετατροπή των σκαναρισμένων βιβλίων σε pdf αρχεία με επιλέξιμο κείμενο, για να μπορείς να αναζητήσεις λέξεις μέσα από το βιβλίο, χρησιμοποιείται τεχνολογία Οπτικής Αναγνώρισης Χαρακτήρων (OCR), η οποία κάνει αρκετά λάθη στα ελληνικά με μονοτονικό, και πολλά λάθη στα ελληνικά με πολυτονικό, ειδικά σε παλιά βιβλία, με ιδιαίτερες ή καλλιγραφικές γραμματοσειρές.

Οπότε, έχε υπ' όψη ότι μπορεί να μην βρεις κάτι που υπάρχει μέσα σε συγκεκριμένο βιβλίο, επειδή το λογισμικό αναγνώρισης έχει κάνει λάθη.


Μετάβαση στη βιβλιοθήκη

Προς προγραμματιστές

Δεν είμαι (ο Ίρηξ) web developer. Ό,τι σχετικό καταλαβαίνω, προέρχεται από ερασιτεχνική ενασχόληση. Τα παραπάνω προβλήματα, υπερβαίνουν κατά πολύ τις γνώσεις και τις δυνατότητες μου.

Πιστεύω ωστόσο, ότι ένας προγραμματιστής που ξέρει C, Javascript, και βάσεις δεδομένων, θα μπορούσε να λύσει τα παραπάνω, χονδρικά σε 1 με 2 μήνες πλήρους απασχόλησης, ανάλογα με τις γνώσεις και την εμπειρία. Δηλαδή, χονδρικά πάλι, αν η βιβλιοθήκη είχε 2.000 αναγνώστες και όλοι έδιναν από 1 ευρώ στον κατάλληλο προγραμματιστή, θα φτιαχνόταν.

Το λογισμικό είναι αυτό: https://github.com/sist2app/sist2

Χρησιμοποιώ την έκδοση SQLite, μέσω του executable file. Οπότε, ιδανικά, θα ήθελα αν κάποιος έκανε fork και έλυνε τα προβλήματα, να φτιάξει και κάποιο executable.


⚠️ Για το πρόβλημα του τονισμού

Δεν ξέρω πώς λύνεται με σωστό τρόπο.

Για γενικότερη έμπνευση υλοποίησης, δες εδώ https://tatoeba.org/en/. Όταν ψάχνεις κάτι σε πολυτονικό σου δίνει και αποτελέσματα στο αντίστοιχο μονοτονικό, και το ανάποδο. https://github.com/Tatoeba/tatoeba2

Για βοήθεια με τις μετατροπές Unicodes μονοτονικού σε πολυτονικό, δες εδώ: https://github.com/Tatoeba/tatoeba2/blob/dev/src/Shell/SphinxConfShell.php#L125. Παίρνεις έτοιμα τα # Greek and Coptic και # Greek Extended.


⚠️ Για το πρόβλημα των «κοντινών αποτελεσμάτων»

Αυτό ενδεχομένως να λύνεται υλοποιώντας αυτό, κατά τη δημιουργία των βάσεων δεδομένων: https://www.sqlite.org/fts5.html#the_trigram_tokenizer , https://github.com/streetwriters/sqlite-better-trigram


⚠️ Περί OCR: Για το OCR χρησιμοποιώ το Tesseract. Και τα σύγχρονα AI Image Recognition OCR δεν είναι πολύ καλύτερα από το Tessaract σε πολυτονικό.

βιβλιοθηκη.1762276782.txt.gz · Τελευταία τροποποίηση: 04/11/2025 19:19