Gamla hederliga pdf:er svårknäckt nöt för AI-bolag
Trots snabba framsteg inom AI har språkmodeller fortfarande svårt att läsa och tolka pdf-filer, ett av världens mest använda filformat. Det rapporterar The Verge.
Problem uppstår särskilt med tabeller, flerspaltig text och inscannade dokument, där modeller riskerar att blanda ihop innehåll och börja hitta på. Nu tävlar många AI-jättar och startups om att bli först med att knäcka problemet, enligt sajten.
Adit Abraham driver ett AI-bolag som specialiserar sig på pdf:er. Att fullt ut kunna behandla stora mängder pdf:er vore ett stort genombrott, menar han.
– AI-bolagen fokuserade inte på pdf:er, eftersom formatet är så svårt. Sedan insåg de att mycket av det riktigt högkvalitativa materialet faktiskt finns just där. Nu måste de ta itu med det.
bakgrund
Pdf-formatet utvecklades av Adobe 1993
Wikipedia (en)
Portable Document Format (PDF), standardized as ISO 32000, is a file format developed by Adobe in 1993 used to present documents, including text formatting and images, in a manner independent of application software, hardware, and operating systems. Based on the PostScript language, each PDF file encapsulates a complete description of a fixed-layout flat document, including the text, fonts, vector graphics, raster images and other information needed to display it. PDF has its roots in "The Camelot Project" initiated by Adobe co-founder John Warnock in 1991.
PDF was standardized as ISO 32000 in 2008. It is maintained by ISO TC 171 SC 2 WG8, of which the PDF Association is the committee manager. The last edition as ISO 32000-2:2020 was published in December 2020.
PDF files may contain a variety of content besides flat text and graphics including logical structuring elements, interactive elements such as annotations and form-fields, layers, rich media (including video content), three-dimensional objects using U3D or PRC, and various other data formats. The PDF specification also provides for encryption and digital signatures, file attachments, and metadata to enable workflows requiring these features.
Omni är politiskt obundna och oberoende. Vi strävar efter att ge fler perspektiv på nyheterna. Har du frågor eller synpunkter kring vår rapportering? Kontakta redaktionen