Illustrationsbild: Eleven Jerifa Islam skriver det kanaresiska alfabetet i en skola utanför Bangalore. (Aijaz Rahi / AP)

AI-törsten på icke-digitala språk skapar nya jobb

Av Tomas Ekelund, Omni Ekonomi
Publicerad: 2 nov. 2023

Generativa språkmodeller som Chat GPT är beroende av språkdata för att kunna kommunicera, vilket blir en utmaning för techjättarna så fort de blickar utanför västvärlden.

– Över 70 indiska språk som talas av minst en miljon människor har ingen digital ”textkorpus”. Så stort är problemet, säger Manish Gupta på Googles Indienkontor.

Lösningen på problemet kan lägga grunden för en lika dold som gigantisk arbetsmarknad, skriver Bloomberg. Enbart i Indien kan en miljon personer arbeta med så kallad dataannotering 2030, enligt organisationen Nasscom.

En av aktörerna är Karya, som såväl Microsoft som Google förlitar sig på. Via startupens app har tiotusentals personer fått betalt för att samla in och kategorisera språkdata. Och för det betalar man relativt bra.

Bloomberg har träffat Preethi från byn Agara. När hon arbetar för Karya läser hon upp meningar på sitt modermål kanaresiska – ett språk som talas av över 35 miljoner människor – och tjänar motsvarande 54 dollar på tre dagar. Som sömmerska tjänar hon mindre än 1 dollar om dagen.

– Om du betalar bra är personalen mer investerade i arbetet. Slutresultatet är bättre data, säger Saikat Guha på Microsoft Research India.

Karya grundaes av 27-åringen Manu Chopra

Bloomberg · Ofta betalvägg

bakgrund

Korpuslingvistik

Wikipedia (sv)

Korpuslingvistik kallas metoden att använda en korpus, en stor samling språkliga data, för språkstudier. Termen myntades först på 1980-talet, men metoden började användas flera årtionden dessförinnan. En svensk pionjär på 1960-talet var Sture Allén med Nusvensk frekvensordbok.

bakgrund

Språkmodeller

Wikipedia (en)

A language model is a probabilistic model of a natural language that can generate probabilities of a series of words, based on text corpora in one or multiple languages it was trained on. In 1980, the first significant statistical language model was proposed, and during the decade IBM performed ‘Shannon-style’ experiments, in which potential sources for language modeling improvement were identified by observing and analyzing the performance of human subjects in predicting or correcting text.Language models are useful for a variety of tasks, including speech recognition (helping prevent predictions of low-probability (e.g. nonsense) sequences), machine translation, natural language generation (generating more human-like text), optical character recognition, handwriting recognition, grammar induction, and information retrieval.Large language models, currently their most advanced form, are a combination of larger datasets (frequently using scraped words from the public internet), feedforward neural networks, and transformers. They have superseded recurrent neural network-based models, which had previously superseded the pure statistical models, such as word n-gram language model.

bakgrund

Kannada

Wikipedia (sv)

Kannada eller kanaresiska är ett dravidiskt språk med 35 327 600 talare, varav majoriteten (35,3 miljoner, 1997) i Indien. Det talas i delstaterna Karnataka, Andhra Pradesh, Tamil Nadu och Maharashtra. Det finns också talare i Kanada och USA. I USA finns det ungefär 48 000 talare. Kannada har ordföljden subjekt–objekt–verb. Kannada anses vara ett livskraftigt språk och det delas i tre huvuddialekter.

Annons

Byt bredband i dag – hitta aktuella kampanjer på 30 sekunder hos Bredbandsval

Bredbandsval

Gå förbi betalväggar!

Omni Mer låser upp en mängd artiklar. En smidig lösning när du vill fördjupa dig.

Upptäck Omni Mer

Omni är politiskt obundna och oberoende. Vi strävar efter att ge fler perspektiv på nyheterna. Har du frågor eller synpunkter kring vår rapportering? Kontakta redaktionen

Ledare: Politikerna pratar inte om AI – det är för deprimerande

Det är fortfarande den senaste tidens stora politiska avslöjanden som tar upp merparten av utrymmet på ledarsidorna, men på torsdagen har också en liten text om AI lyckats ta sig in.

I går 12.36

En man vinkar till en AI-version av Nvidia-chefen Jensen Huang.

Matematiker oroliga när AI knäcker värstingproblem

En grupp med 16 framstående matematiker har lanserat ett upprop som varnar för hur AI riskerar att förändra matematikens villkor, rapporterar New York Times. Uppropet går under namnet Leidendeklarationen och kommer efter att Open AI använt en AI-modell för att lösa ett 80 år gammalt matematiskt problem.

5 juni, 09.12

Instagramkonton kapade med hjälp av Metas AI-support

Hackare säger sig ha kunnat kapa Instagramkonton genom att be Metas egen AI-supportchatt om hjälp, rapporterar 404 Media. Metoden gick ut på att angriparen helt enkelt bad chattboten att koppla en ny mejladress till ett visst användarnamn.

2 juni, 09.10

Källor: Walmart tvingas ransonera AI till anställda

Walmart begränsar de anställdas användning av AI-verktyget Code Puppy efter hög efterfrågan, uppger källor för Bloomberg. Tidigare hade medarbetarna obegränsad tillgång, men får nu en bestämd mängd AI-tokens för att använda verktyget.

1 juni, 21.52

Utvecklingen av AI Data, it & högteknologi Microsoft Google Chat GPT