Προτεινόμενοι Σύνδεσμοι:    greece   -   greece hotels   -   ειδησεις   -   greece news   -   ταβλι στο internet   -   livescore   -   νέα
 easypedia

Easypedia.gr
Ελλάδα
Αρχαία Ελλάδα
Ελληνες
Πρωθυπουργοί
Οικονομία
Γεωγραφία
Ιστορία
Γλώσσα
Πληθυσμός
Μυθολογία
Πολιτισμός & Τέχνες
Ζωγραφική
Θέατρο
Κινηματογράφος
Λογοτεχνία
Μουσική
Αρχιτεκτονική
Γλυπτική
Αθλητισμός
Μυθολογία
Θρησκεία
Θετικές & Φυσικές Επιστήμες
Ανθρωπολογία
Αστρονομία
Βιολογία
Γεωλογία
Επιστήμη υπολογιστών
Μαθηματικά
Τεχνολογία
Φυσική
Χημεία
Ιατρική
Φιλοσοφία & Κοινωνικ. Επιστήμες
Αρχαιολογία
Γλωσσολογία
Οικονομικά
Φιλοσοφία
Ψυχολογία
Γεωγραφία
Ασία
Αφρική
Ευρώπη
Πόλεις
Χώρες
Θάλασσες
Ιστορία
Ελληνική Ιστορία
Αρχαία Ιστορία
Βυζάντιο
Ευρωπαϊκή Ιστορία
Πόλεμοι
Ρωμαϊκή Αυτοκρατορία
Σύγχρονη Ιστορία
 

Σώμα κειμένων

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια

Ως σώμα κειμένων (corpus, πληθ. corpora) ορίζεται ένα αντιπροσωπευτικό σύνολο κειμένων, το οποίο χρησιμοποιείται ως δείγμα με αντικείμενο τη γλωσσολογική ανάλυση.

Τα σώματα κειμένων παρέχουν στους γλωσσολόγους τη δυνατότητα για επιστημονικές παρατηρήσεις σχετικά με τη συχνότητα χρήσεως ενός τύπου, το συμφραστικό περιβάλλον του, καθώς και ―στη διαχρονική γλωσσολογική ανάλυση― σχετικά με την πρώτη εμφάνιση ή σημασία ενός τύπου και τις μετέπειτα αλλαγές του. Η έκταση ενός σώματος ποικίλλει ανάλογα με τις πηγές και τον σκοπό για τον οποίο έχει παραχθεί: υπάρχουν σώματα κειμένων που καλύπτουν ολόκληρες γραμματειακές περιόδους (όπως την Αρχαία Ελληνική και Λατινική γραμματεία) και άλλα, πιο περιορισμένα, που επιχειρούν να αποδώσουν στοιχεία τού προφορικού λόγου ή κοινωνιολέκτους. Ειδικά σώματα κειμένων αντλούν επιλεκτικά στοιχεία από έντυπο ή προφορικό λόγο, με σκοπό τη μελέτη ορισμένης γλωσσικής λειτουργίας.

Στη σύγχρονη εποχή τα σώματα κειμένων αποτελούν αντικείμενο της Υπολογιστικής Γλωσσολογίας. Με την ανάπτυξη ειδικού προηγμένου λογισμικού η καταχώριση ενός κειμένου στο σώμα συνοδεύεται από κατάλληλη σήμανση (tagging), η οποία παρέχει τη δυνατότητα αναλύσεως της δομής τής γλώσσας και βοηθεί στην άντληση φωνολογικών, γραμματικών και συντακτικών πληροφοριών από το κείμενο. Ουσιαστικά, λόγω της έκτασης των πληροφοριών και της ταχείας πρόσβασης σε αυτές, δεν είναι πλέον δυνατόν να εκπονηθεί αξιόπιστη γλωσσολογική μελέτη ούτε να συνταχθεί ποιοτικό λεξικογραφικό έργο, αν δεν έχουν ληφθεί υπ’ όψιν τα δεδομένα που παρέχουν τα corpora.

Όπως και κάθε άλλη επιστημονική μέθοδος, τα σώματα κειμένων έχουν περιορισμούς. Όσο εκτενής και αν είναι η κάλυψή τους, χρειάζονται διαρκώς διόρθωση, ανανέωση και συμπλήρωση. Επιπλέον, τα στοιχεία τους, όταν πρόκειται για σύγχρονες, ζωντανές γλώσσες, χρειάζονται διασταύρωση και επιβεβαίωση από υλικό που προέρχεται από ιθαγενείς ομιλητές τής γλώσσας. Τέλος, για να προκύψουν αξιόπιστα αποτελέσματα, απαιτούνται σταθμισμένα σώματα κειμένων, δηλ. επιμελημένα ώστε να αντιπροσωπεύουν διάφορες γλωσσικές ποικιλίες και διάφορα είδη ομιλητών.

Βιβλιογραφία

  • Ajmer K. & Altenberg B. 1991: English linguistic corpus (London)
  • Butler C.S. (ed.) 1992: Computers and written texts (Oxford)
  • McTear M. 1987: The articulate computer (Oxford)
  • Scholfield P. 1995: Quantifying language (Clevedon)

Εξωτερικοί σύνδεσμοι