AI-törsten på icke-digitala språk skapar nya jobb
Generativa språkmodeller som Chat GPT är beroende av språkdata för att kunna kommunicera, vilket blir en utmaning för techjättarna så fort de blickar utanför västvärlden.
– Över 70 indiska språk som talas av minst en miljon människor har ingen digital ”textkorpus”. Så stort är problemet, säger Manish Gupta på Googles Indienkontor.
Lösningen på problemet kan lägga grunden för en lika dold som gigantisk arbetsmarknad, skriver Bloomberg. Enbart i Indien kan en miljon personer arbeta med så kallad dataannotering 2030, enligt organisationen Nasscom.
En av aktörerna är Karya, som såväl Microsoft som Google förlitar sig på. Via startupens app har tiotusentals personer fått betalt för att samla in och kategorisera språkdata. Och för det betalar man relativt bra.
Bloomberg har träffat Preethi från byn Agara. När hon arbetar för Karya läser hon upp meningar på sitt modermål kanaresiska – ett språk som talas av över 35 miljoner människor – och tjänar motsvarande 54 dollar på tre dagar. Som sömmerska tjänar hon mindre än 1 dollar om dagen.
– Om du betalar bra är personalen mer investerade i arbetet. Slutresultatet är bättre data, säger Saikat Guha på Microsoft Research India.