Koks yra geras formatas atviriems duomenims

Dažnai perdėm formaliuose susirinkimuose ir svarstymuose apie atvirus duomenis kyla klausimas: tai kokiu formatu atiduoti? Gal čia pasinaudoti, kokiu nors nauju startup’u ar sudėti viską į Google fusion tables, nes jie turi labai daug visokių funkcijų ir daug talpina?

Išties viskas yra labai paprasta (numeracija nenurodo prioritetų):

  1. XLSX
  2. CSV
  3. XML
  4. JSON
  5. HTML

Išties jeigu reikėtų pateikti sąrašą tik to, kas yra išties patogu ir paprasta, tai 1 ir 5 punkto nebūtų. Deja (o gal ir ne deja, nes, na, o ko dar reikėtų tikėtis?), neretai tenka prieiti prie tokio momento – duokit ką turit. Tai jeigu turimas XSLX arba HTML’as (supraskit – tinklalapis su kokiu nors sąrašu), jį galima nesunkiai apdoroti.

Kodėl netinka XLS? XLSX yra atviras formatas – realiai suzipintas XML’as (jeigu pakeisit .xlsx į .zip galėsit pažiūrėt turinį), todėl galima jį nuskaityti įvairiais atviro kodo įrankiais. Tuo tarpu XLS yra uždaras Microsoft formatas ir jam apdoroti jums neišvengiamai reikės Microsoft serverio.

Tiek XLSX tiek XLS lengvai galima pakonvertuoti į CSV. Tame taip pat yra privalumas, nes jeigu jau kalba eina apie excel’į, viltis yra.

HTML formatas taip pat yra šiek tiek keblesnis (lyginant su kitais), bet taip pat yra good enough. Štai Valstybinė ne maisto produktų inspekcija pateikia savo atradimus tokiu būdu.

Ir per šį sąrašą, nors ir nepatogu, reikalui esant perbėgt galima pasirašius scrapperį, o turint krūvą tam skirtų atviro kodo įrankių, tai nėra itin sunku.

Tik čia atkreipti dėmesį reikėtų į žodžius „reikalui esant“. Su tais reikalais ir jų buvimu dažnai būna taip: jeigu turi laisvą minutę ir yra lengvai pasiekiamų duomenų, galbūt tu ir sugalvosi kokią nors gražią mintį ir ją įgyvendinsi. Jeigu vardan duomenų reikės gerokai pavargti – šitai gali ir neįvykti. Kai jau „yra reikalas“ tai išties ir skanuoti PDF’ai didelių bėdų nepridaro – juos leidi per gan padoriai veikiantį Tesseract OCR’ą ir turi tekstą, kurį gali daugiau ar mažiau patogiai apdoroti toliau.

Jeigu norime išties atverti duomenis – nesistenkime jų dėti į PDF’us (juk tai papildomas darbas visiems), pateikime lenteles grynas – jeigu turime excel’į, nepatingėkime jo konvertuoti į CSV. Kuo daugiau properly atvirų duomenų, tuo atviresnė valdžia.

1 mintis apie “Koks yra geras formatas atviriems duomenims”

  1. Sveiki,
    na didžiausia problema dėl teikiamų duomenų ir yra tame, kad visi dokumentai dažniausiai būna pateikti uždaru Microsoft standarto formatu. įdomu teisiškai ar tai nėra tam tikro verslo propagavimas…
    Aš už Open Document formatus vienareikšmiškai. Tik gal tam reiktų dar vieno įstatymo ar jo pataisos? :)
    O dėl xml, csv ir pan. dalykų – nemanau, kad artimiausiu metu bus galima pasiekti, kad kiekvienas informacijos pliūpsnis būtų pateiktas skirtingomis formomis.

Komentavimo galimybė išjungta.