In campo linguistico si distingue tra lingue con grande disponibilità di risorse (high-resourse languages) e lingue a bassa disponibilità di risorse (low-resource languages). Ma di quale risorse si sta parlando? E dove sta la differenza tra queste due categorie? Quello che è certo è che esistono vari tipi di risorse linguistiche e diversi modi di valutarle. Non esiste un metodo assoluto per determinare la disponibilità di risorse di una lingua, ma a questa domanda si può rispondere contestualmente.
Cosa sono le risorse linguistiche di un’idioma?
Le risorse linguistiche sono tutte le rappresentazioni di una lingua, in forma scritta o digitale. Dai semplici testi ai dizionari, grammatiche e database digitali, ogni lingua ha un sistema di risorse per chi volesse leggerla, tradurla o impararla. Quando si parla di risorse linguistiche digitali nel campo della linguistica computazionale e della traduzione, si intende specificatamente la presenza di una lingua in software, strumenti e risorse automatiche per la traduzione digitale come Google Translate (o risorse più specializzate come Trados).
Ci sono circa settemila lingue nel mondo, di cui circa la metà presenti in pubblicazioni, descrizioni, dizionari. Questi documenti possono essere di qualità variabile a seconda della lingua, e solo un centinaio di lingue hanno anche risorse digitali.
Perché alcune lingue hanno meno risorse rispetto ad altre?
Alcune lingue sono a bassa disponibilità di risorse perché sono a bassa densità, cioè non sono parlate da molte persone nel mondo. Alcuni esempi sono l’Inuit o il Sindhi. D’altra parte, ci sono lingue che hanno scarse risorse per motivi tecnologici. Ad esempio, nei primi anni 2000, l’hindi era ancora una lingua a basse risorse semplicemente perché era davvero difficile trovare contenuti in online.