Illustrationsbild: Eleven Jerifa Islam skriver det kanaresiska alfabetet i en skola utanför Bangalore. (Aijaz Rahi / AP)

AI-törsten på icke-digitala språk skapar nya jobb

Generativa språkmodeller som Chat GPT är beroende av språkdata för att kunna kommunicera, vilket blir en utmaning för techjättarna så fort de blickar utanför västvärlden.

– Över 70 indiska språk som talas av minst en miljon människor har ingen digital ”textkorpus”. Så stort är problemet, säger Manish Gupta på Googles Indienkontor.

Lösningen på problemet kan lägga grunden för en lika dold som gigantisk arbetsmarknad, skriver Bloomberg. Enbart i Indien kan en miljon personer arbeta med så kallad dataannotering 2030, enligt organisationen Nasscom.

En av aktörerna är Karya, som såväl Microsoft som Google förlitar sig på. Via startupens app har tiotusentals personer fått betalt för att samla in och kategorisera språkdata. Och för det betalar man relativt bra.

Bloomberg har träffat Preethi från byn Agara. När hon arbetar för Karya läser hon upp meningar på sitt modermål kanaresiska – ett språk som talas av över 35 miljoner människor – och tjänar motsvarande 54 dollar på tre dagar. Som sömmerska tjänar hon mindre än 1 dollar om dagen.

– Om du betalar bra är personalen mer investerade i arbetet. Slutresultatet är bättre data, säger Saikat Guha på Microsoft Research India.

bakgrund
 
Korpuslingvistik
Wikipedia (sv)
Korpuslingvistik kallas metoden att använda en korpus, en stor samling språkliga data, för språkstudier. Termen myntades först på 1980-talet, men metoden började användas flera årtionden dessförinnan. En svensk pionjär på 1960-talet var Sture Allén med Nusvensk frekvensordbok.
bakgrund
 
Språkmodeller
Wikipedia (en)
A language model is a probabilistic model of a natural language that can generate probabilities of a series of words, based on text corpora in one or multiple languages it was trained on. In 1980, the first significant statistical language model was proposed, and during the decade IBM performed ‘Shannon-style’ experiments, in which potential sources for language modeling improvement were identified by observing and analyzing the performance of human subjects in predicting or correcting text.Language models are useful for a variety of tasks, including speech recognition (helping prevent predictions of low-probability (e.g. nonsense) sequences), machine translation, natural language generation (generating more human-like text), optical character recognition, handwriting recognition, grammar induction, and information retrieval.Large language models, currently their most advanced form, are a combination of larger datasets (frequently using scraped words from the public internet), feedforward neural networks, and transformers. They have superseded recurrent neural network-based models, which had previously superseded the pure statistical models, such as word n-gram language model.
bakgrund
 
Kannada
Wikipedia (sv)
Kannada eller kanaresiska är ett dravidiskt språk med 35 327 600 talare, varav majoriteten (35,3 miljoner, 1997) i Indien. Det talas i delstaterna Karnataka, Andhra Pradesh, Tamil Nadu och Maharashtra. Det finns också talare i Kanada och USA. I USA finns det ungefär 48 000 talare. Kannada har ordföljden subjekt–objekt–verb. Kannada anses vara ett livskraftigt språk och det delas i tre huvuddialekter.

Gå förbi betalväggar!

Omni Mer låser upp en mängd artiklar. En smidig lösning när du vill fördjupa dig.

Omni är politiskt obundna och oberoende. Vi strävar efter att ge fler perspektiv på nyheterna. Har du frågor eller synpunkter kring vår rapportering? Kontakta redaktionen