Mens en rekenaar genereer data elektronies teen ’n astronomiese spoed en in so ’n mate dat die samelewing tans kognitiewe uitdagings ervaar om al hierdie data sinvol te ontleed en te gebruik. Grootdatafirmas, soos Google en Facebook, het hierdie probleem reeds ’n paar jaar gelede geïdentifiseer en is tans gedurig besig om nuwe tegnologie te ontwikkel of bestaande tegnologie te verbeter, ten einde die kognitiewe ontleedproses van hierdie grootdatastelle te vergemaklik. Die doel van dié artikel is om ’n bydrae te lewer tot ons teoretiese begrip van die rol wat grootdata gaan speel om nuwe opleidingsgeleenthede aan Suid-Afrikaanse universiteite te skep. Die artikel ondersoek ontluikende literatuur oor die eienskappe en hoofkomponente van grootdata, tesame met die Hadoop-programstapel as voorbeeld van grootdatategnologie. Aangesien die snelle ontwikkeling van grootdatategnologie ’n paradigmaverskuiwing teweeg bring wat betref menslike hulpbronne wat hierdie datastelle gaan ontleed, stel die studie ondersoek in na die stand van grootdata-onderrig aan Suid-Afrikaanse universiteite. Die artikel voorsien ook ’n oorsig oor moontlike grootdatabronne aan Suid-Afrikaanse universiteite, sowel as relevante grootdatavaardighede waaroor die datawetenskaplike noodwendig moet beskik. Die studie ondersoek verder ook bestaande akademiese programme in Suid-Afrika, wat gefokus is op die onderrig van gevorderde databasisstelsels. Die studie het bevind dat grootdata-onderrig wel op nagraadse vlak aan Suid-Afrikaanse universiteite plaasvind, maar op ’n baie beperkte skaal. Dié artikel dra by tot nuwe kennis en stel belangrike teoretiese komponente voor wat ingesluit kan word by bestaande akademiese programme. Daar is egter meer navorsing nodig om hierdie programme uit te brei en in ’n groeiende vraag aan datawetenskaplikes met grootdatavaardighede te voorsien.
Volgens IBM word daar daagliks ongeveer 2.5 kwintiljoen
Die artikel ondersoek die stand van grootdata- en datawetenskaponderrig aan Suid-Afrikaanse universiteite. Die artikel begin met ’n bespreking van die eienskappe, gevolg deur die fases van ’n grootdatastelsel. In die daaropeenvolgende afdeling word enkele maar toepaslike grootdata-uitdagings bespreek as potensiële navorsingsgeleenthede. Daarna word gefokus op grootdata in hoër onderwys en bespreek enkele tipes grootdatabronne wat by universiteite teenwoordig is. Dié afdeling lewer ook verslag oor die stand van grootdata- en datawetenskaponderrig aan Suid-Afrikaanse universiteite en vorm die empiriese gedeelte van die artikel. Ten slotte word opsommende kommentare en voorstelle vir toekomstige navorsing bespreek.
Die hoofdoel van hierdie afdeling is om ’n oorsig te gee oor grootdata. Grootdata-eienskappe, grootdatastelsels en die Hadoop-programmatuurstapel word breedvoerig bespreek.
Grootdata verwys na ’n groot versameling data wat óf ongestruktureerd is, óf so vinnig groei dat dit te groot is vir tradisionele dataverwerkingstelsels en dus nuwer tegnologie vereis (Vaisman & Zimanyi
Volgens Gartner (
Bogenoemde eienskappe van grootdata bring ’n nuwe paradigma na vore met betrekking tot hoe die data versamel, geberg, verwerk, ontleed en gebruik moet word. Hierdie paradigma word in die gedrukte media gewoonlik net met tegnologie geassosieer, en dikwels word daar nagelaat om te sê dat grootdata ook twee ander kritieke elemente vereis, naamlik mense en ’n proses (W. Kim, Jeong, & C. Kim
Van die belangrikste primêre bronne van grootdata sluit in databanke, webblaaie, sosiale media, sensors en mobiele data (Hu
Die verkryging van grootdatastelle behels die proses om data bymekaar te maak en sluit in data-insameling, data-oordrag en data-voorverwerking (Chen
Sodra die data versamel en verkry is, moet ’n grootdatastelsel dit gereed kry vir berging, ontleding en waardeontrekking (Hu
Apparatuurinfrastruktuur, byvoorbeeld DAS (
Ten opsigte van databestuur en databasistegnologie, word daar algemeen aanvaar dat ’n tradisionele RDBS nie die verskeidenheid en grootte van grootdatastelle kan hanteer nie (Hu
NoSQL- (Not Only SQL) databasisstelsels word tans voorgehou as die oplossing om hierdie groot volumes, multistrukturele data te verwerk (Sharda
Datadatavisualisering, statistiese ontleding en data-ontginning word met groot sukses in verskeie grootdata-ontledingtoepassings gebruik (Hu
Die Apache Hadoop-sagtewarebiblioteek is ’n raamwerk wat uit verskeie oopbronprogrammatuur bestaan en implementeer hoofsaaklik Google se MapReduce-infrastruktuur (Lee
Die Hadoop-ekosisteem bestaan uit drie hoofkomponente, naamlik ’n verspreide-lêerstelsel of datastoorvlak wat
Hadoop 1.0-programmatuurstapel.
MapReduce is oorspronklik deur Google ontwikkel om websoektogte op webdokumente deur middel van ’n groot aantal rekenaars te verrig (Vaisman & Zimanyi
MapReduce kan oor verskeie dataformate geïmplementeer word en werk volgens die beginsel waar ’n taak in kleiner dele verdeel word, en dan in parallel verwerk word oor ’n versameling identiese masjiene, soos ’n rekenaartros (Vaisman & Zimanyi
Hadoop 2.0-programmatuurstapel.
Die Hadoop-verspreidelêerstelsel se hoofverantwoordelikheid is om grootdatastelle op te deel tussen rekenaars, of nodes in ’n HDFS-tros (White
Beide Zookeeper en Chukwa word gebruik om verspreide toepassings wat op Hadoop uitgevoer word te moniteer en te bestuur (Hu
Hbase is ’n verspreide kolomdatabasis wat Hadoop in staat stel om groot tabelle te stoor (Watson
Vir gebruikers wat nie vertroud is met die skryf van MapReduce-kode nie, is Hadoop nie maklik om te gebruik nie, aangesien MapReduce-programme meestal in Java, Python, C of Perl geskryf word (Watson
Hive is deur Facebook ontwikkel om die konsepte van tabelle, kolomme en SQL (soos uit die relasionele databasiswêreld) na die Hadoop-ekosisteem te bring (Vaisman & Zimanyi
Pig bestaan uit datavloeitaal op hoë vlak genaamd Pig Latin en ’n gepaardgaande uitvoeringsraamwerk (Lee
Mahout is ’n oopbron-biblioteek van masjienleer en data-ontginningalgoritmes wat onder meer groepering, kategorisering, samewerkende filter, teksontginning en gereelde patroonontginning insluit (Watson
Apache Flume en Scoop is gereedskap wat ontwikkel is om te help met data-integrasie. Flume is ’n verspreide stelsel wat groot hoeveelhede data van verskeie bronne versamel, saamvoeg en dan oordra na ’n gesentraliseerde datastoor of HDFS (Hu
Apache Spark is ’n oopbron-trosrekenaarraamwerk vir grootskaalse dataverwerking en kan as alternatief tot Hadoop/MapReduce gebruik word (White
Nie alle grootdatastelsels is as oopbronprogrammatuur soos Apache Hadoop of Apache Spark beskikbaar nie. Verskeie databasisverskaffers het ook grootdatastelsels beskikbaar gestel, gewoonlik ten duurste. Een so ’n voorbeeld is SAP HANA, ’n ingeheue-databasisplatform vir intydse ontledings en toepassings (Minelli
Die volume, verskeidenheid en spoed waarteen grootdata groei, skep heelwat uitdagings. Een van die uitdagings is om die heterogone aard van ongestruktureerde data te hanteer, aangesien masjien-ontledingalgoritmes homogene data verwag. Organisasies sal dus verskillende maniere benodig om die data ‘gestruktureerd’ te kry voordat dit vir ontleding gebruik kan word (Jagadish
Ten einde die waarde en geleenthede van grootdata in hoër onderwys te verstaan, word die verskillende bronne en tipes bespreek, gevolg deur geleenthede en laastens die stand van grootdata- en datawetenskaponderrig aan Suid-Afrikaanse universiteite.
Leerbestuurstelsels (LBS), soos Blackboard of Moodle, versamel reeds volumes groeiende data van studente se akademiese prestasie, stelselinteraksie, sowel as persoonlike en demografiese inligting (Romero & Ventura
Grafiekanalise kan ook gebruik word om ’n bestaande student se sosiale netwerk te analiseer om te bepaal watter vriende ook sou belangstel om by ’n betrokke universiteit te studeer (Schmarzo
Ander bronne van grootdata van hoër onderwysinstellings sluit in kampussensordata sowel as data oor webblad-soekpatrone van ’n LBS. Beskrywende analise kan op hierdie datastelle toegepas word om ondersoek in te stel na hoe gereeld ’n bladsy besoek word en kan dit met die sukseskoers van ’n kursus vergelyk word om te bepaal watter studente met ’n module gesukkel het (Daniel
Een van die grootste geleenthede tans in hoër onderwys is om gekwalifiseerde studente te lewer wat in staat is om grootdatastelle te kan verwerk. In die moderne werksomgewing, wat die akademie sowel as industrie insluit, word daar dikwels van hierdie gekwalifiseerde studente verwag om as datawetenskaplikes te funksioneer (Davenport & Patil
Datawetenskaplikes moet dikwels verskillende databronne gebruik om vrae soos die volgende te beantwoord: ‘Wat het gebeur?’, ‘Waarom het dit gebeur?’, ‘Wat gaan gebeur?’ en ‘Wat is die beste wat kan gebeur?’ (Van der Aalst
Daar word gereken dat die Verenigde State van Amerika (VSA) alleen teen die jaar 2018 tussen 140,000 en 190,000 professionele mense met indringende analitiese vermoëns in grootdata gaan benodig (Berman
In Suid-Afrika het die aanvraag na datawetenskaplikes oor die laaste vyf jaar aansienlik toegeneem (Taylor
Die studie het ondersoek ingestel na die stand van grootdata- en datawetenskaponderrig aan Suid-Afrikaanse universiteite. Data is deur middel van internetsoektogte op Google.com versamel. Data is ook vanaf die Suid-Afrikaanse Kwalifikasie-Owerheid (SAQA) se databasis verkry. Al die data is ingesamel tussen Januarie en Maart 2016.
Die navorsingsvraag vir hierdie studie is:
Ten opsigte van grootdata, is die databasis van die Suid-Afrikaanse Kwalifikasie-Owerheid (SAQA) geraadpleeg ten opsigte van kwalifikasie- en eenheidstandaarde waar die titel ‘
Die inhoud van Noordwes-Universiteit (2015) se twee nagraadse, gevorderde databasisstelsels-modules (ITRI611 en ITRI621) het gehandel oor datapakhuise en sake-intelligensie. Studente moes as ’n praktiese projek ’n datapakhuis en OLAP-kubus bou en inhandig vir assessering, tesame met genoegsame dokumentasie (Goede
Die Universiteit van Kaapstad (2015) se nagraadse, gevorderde databasisstelsel-module (DBS) het inhoud oor verspreide databasis, datapakhuise, data-ontginning, asook grootdata en NoSQL ingesluit. Die doel van die module was om studente bloot te stel aan nuwe ontwikkelings in databasisstelsels en om nuwe tegnologie wat daarmee gepaardgaan, te bestudeer. Uit die modulehandleiding was dit nie duidelik hoe indringend grootdata en NoSQL behandel word nie. Die Universiteit van die Vrystaat (2015) het drie nagraadse, gevorderde databasisstelsel-modules aangebied, naamlik Oracle- databasisadministrasie (CSID6843), datapakhuise (CSID6853) en sake-intelligensie (CSID6823). Grootdata-teorie en toepassing word as deel van die datapakhuis-module aangebied. Die inhoud het tegnologieë soos Hadoop, MapReduce, HDFS en Hive ingesluit en studente se vaardighede is deur teoretiese en praktiese opdragte geassesseer. Die gebruik van datavisualiseringstegnologie, meer spesifiek Tableau, word as deel van die nagraadse sake-intelligensie-module aangebied.
Universiteite in Suid-Afrika wat DP/BI en/of GD.
Rang in Afrika | Universiteit | DP/BI | GD |
---|---|---|---|
1 | Universiteit van Kaapstad | Ja | Ja |
6 | Universiteit van Pretoria | Ja | Nee |
11 | Noordwes-Universiteit | Ja | Nee |
18 | Universiteit van die Vrystaat | Ja | Ja |
32 | Nelson Mandela Metropool-Universiteit | Ja | Nee |
DP/BI, datapakhuise/sake-intelligensie; GD, grootdata.
Nota: Datapakhuise, sake-intelligensie en grootdata is opgestel deur ondersoek in te stel of die instansies datapakhuis, sake-intelligensie en grootdata aanbied.
Die studie het vervolgens ondersoek ingestel na datawetenskaponderrig aan Suid-Afrikaanse universiteite. Die Suid-Afrikaanse Kwalifikasie-Owerheid (SAQA) se databasis is weereens geraadpleeg met die soekterm ‘
Die kwalifikasies se inhoud is vergelyk met datawetenskapvaardighede uit die literatuur. Sol Plaatje-Universiteit (2016) se kwalifikasie fokus hoofsaaklik op Wiskunde en Rekenaarwetenskap. Ten opsigte van die vaardighede wat benodig word, is daar net vermelding gemaak van Microsoft SQL wat as bediener gebruik word om data te stoor, te bestuur en navrae met SQL te implementeer. Dit dek net ’n gedeelte van hoe grootdata geberg word, en meer spesifiek gestruktureerde data wat RDBS-tegnologie, soos Microsoft SQL gebruik. Noordwes-Universiteit (2016) se kwalifikasie dek bedryfsanalise en data-ontginning in die hoofstroom en maak vermelding van SAS Enterprise Miner as data-ontginningsgereedskap. Hierdie gereedskap sluit aan by die data-ontledingsvaardighede wat datawetenskaplikes benodig (Watson & Marjanovic
Die snelle groei van grootdata en gepaardgaande tegnologie bied astronomiese geleenthede vir die industrie sowel as die akademie in Suid-Afrika. Die doel van die artikel is om ’n breedvoerige oorsig te gee oor grootdata, grootdatastelsels, relevante oopbronprogrammatuur wat met grootdatastelsels geassosieer word, sowel as grootdata-onderrig. Grootdata- en datawetenskaponderrig is ’n belangrike en ’n relevante onderwerp vir Suid-Afrika, aangesien die vraag na datawetenskaplikes die afgelope vyf jaar aansienlik toegeneem het.
Datawetenskapkwalifikasies.
Universiteite | Graad |
---|---|
Sol Plaatje-Universiteit | |
Noordwes-Universiteit |
Die artikel rapporteer dat grootdata- en datawetenskaponderrig aan Suid-Afrikaanse universiteite wel aandag geniet. Daar word grootdatavaardighede aan nagraadse studente oorgedra, wat insluit hoe data geberg word (RDBS, HDFS, HBase), data verwerk word (Hadoop, MapReduce, Spark), data opgesoek word (Hive, SQL) en data gevisualiseer word (Tableau), maar op ’n beperkte skaal. Dit is egter nog nie seker of bestaande Suid-Afrikaanse akademiese programme genoegsame blootstelling aan nagraadse studente gee ten opsigte van die wetenskap, sowel as die grootdatategnologiese komponent van datawetenskap nie. Die volgende inhoud word aanbeveel as deel van toekomstige blootstelling aan en onderrig in grootdatategnologie:
Bedryfstelsel: UNIX-verwante bedryfstelsel (Bash-tekste)
Grootdataberging: NoSQL, Hadoop, HDFS
Grootdata-programmeringmodel: MapReduce, Spark
Grootdataprogrammering: Python, Perl of Java
Grootdata-ontleding: Hive, SQL
Grootdata-ontginning: Mahout, R, SAS Enterprise Miner, IBM SPSS Modeler
Grootdatavisualisering: Tableau, Gephi of ggplot2.
Grootdata-onderrig gaan in die nabye toekoms ’n belangrike rol speel om in die vinnig toenemende tekort aan datawetenskaplikes te voorsien. Hierdie datawetenskaplikes se toekomstige bydraes in die sake- en wetenskapwêreld moet nie onderskat word nie, en het die potensiaal om aan Suid-Afrika ’n regmatige plek in die wêreld van grootdata te gee. Meer navorsing word vereis om te bepaal wat Suid-Afrika se werklike behoefte aan datawetenskaplikes met toepaslike grootdata-onderrig is. Verdere navorsing in terme van ’n ondersoek om vas te stel of die grootdatategnologie wel, soos voorgestel, deur organisasies in Suid-Afrika gebruik word, is egter nodig. Hierdie navorsing kan ’n waardevolle en belangrike bydrae lewer ten einde die akademiese opleiding van datawetenskaplikes in Suid-Afrika te bevorder.
Die outeur verklaar hiermee dat hy geen finansiële of persoonlike verbintenisse het wat hom nadelig of voordelig beïnvloed het in die skryf van hierdie artikel nie.