Inleiding tot statistisch programmeren met R

Inhoudsopgave
R is een statistische programmeertaal, het is gratis en open source. Het wordt voornamelijk gebruikt voor de operaties van: datamining of statistiek, dit alles met als doel toepassingen te maken voor de analyse van grote hoeveelheden data.
De opdrachtregelinterface van R In het begin kan het wat intimiderend zijn, maar dit wordt overschaduwd na het waarderen van de kracht en mogelijkheden die taal ons biedt om informatie-analyse te delen en te reproduceren.
R Het kan gratis worden gedownload voor alle gratis platforms die vandaag bestaan, we hebben de mogelijkheid om het te installeren in ramen, Linux en zelfs Mac.
Voor de doeleinden van deze tutorial zullen we de versie gebruiken voor: ramen die we kunnen vinden op de officiële pagina van het project in de volgende link. Na het downloaden en installeren hebben we onze functionele kopie van R, als we het uitvoeren, hebben we het beginscherm van R die er zo uit zou moeten zien:

R Het stelt ons in staat om op een snelle en effectieve manier met gegevens te werken, maar de standaardinterface is niet perfect voor deze taak. Een van de problemen is dat alles in aparte vensters wordt geopend waardoor het moeilijk is om te werken en ook de opdrachtregelinterface is niet in alle besturingssystemen hetzelfde.
Hoewel er veel interfaces zijn om dit probleem op te lossen, gebruiken we in deze tutorial RStudio die beschikbaar is voor alle platforms, maar het is belangrijk om te vermelden dat het noodzakelijk is om R geïnstalleerd vóór installatie, om de versie van te krijgen ramen we gaan naar de volgende link en downloaden de bijbehorende versie.
Na de installatie voeren we RStudio en we zouden de hoofdinterface moeten zien:

RStudio geeft ons de organisatie van alle vensters van R binnen een enkel paneel en geeft ons bovendien toegang tot functies die moeilijk te vinden kunnen zijn, daarnaast kunnen we nog andere extra voordelen noemen:
  • Laten we ons werk verdelen in: Projecten waar elk van deze zijn werkmap, geschiedenis en bronbestanden zal hebben.
  • Integratie met GitHub.
  • Hiermee kunt u een verhaal grafisch opslaan.
  • U kunt de afbeeldingen in verschillende formaten en formaten exporteren.
  • Het stelt ons in staat om code te voltooien met de tabelsleutel.
  • Dankzij bepaalde pakketten kunt u interactieve grafieken maken.
Zoals we zien RStudio is een vrij optimale manier om mee te werken REr zijn echter andere oplossingen op de markt, het is aan elke persoon om deze te onderzoeken en te evalueren of ze beter zijn aangepast aan de behoeften van elke persoon.
Er zijn verschillende manieren om mee te werken R waar het eerste dat we zullen behandelen is de R-consoleOndanks het feit dat we het uitgevoerde werk hier niet kunnen opslaan, is het best nuttig om enkele functies te testen en vertrouwd te raken met de taal.
Werken met de console is vrij eenvoudig, we voeren een commando in en dan geeft R ons de uitvoer ervan, laten we een eenvoudige optelbewerking proberen, zoals de volgende:
> 10 + 7

We duwen Binnenkomen en automatisch R In de volgende regel geeft het ons het antwoord op onze operatie:

Zoals we in de afbeelding kunnen zien, bevat de eerste regel het commando met onze bewerking, het is belangrijk om te vermelden dat: R het vereist geen gebruik van de puntkomma om de regel of een andere beëindigende operator te beëindigen. We zien in de tweede regel voor het antwoord de [1] dit geeft de manier aan waarop R voert rekenkundige bewerkingen uit en gebruikt vector, de ene betekent de index van het eerste element van de vector, waar we kunnen benadrukken dat veel andere talen de indexen vanaf het begin afhandelen, maar R doet het van de ene.
Zoals we eerder vermeldden, is de console best handig, maar het is niet de beste om mee te werken, vooral omdat het niet de mogelijkheid heeft om onze commando's op te slaan en de mogelijkheid om slechts één commando tegelijk in te voeren, iets soortgelijks gebeurt met Python, maar we hoeven ons geen zorgen te maken sinds RStudio geeft ons de scriptvenster bevindt zich in het bovenste deel van onze console, als we het niet vinden, gaan we naar Bestand> Nieuw bestand> R-script of druk op Shift + Command + N.
In principe is een R-script platte tekst met de extensie .R. Om te zien hoe het werkt, kunnen we onze rekenkundige bewerking van het vorige voorbeeld opnieuw maken door een nieuw script te maken en verschillende extra opdrachtregels toe te voegen, laten we eens kijken:
 10 + 7 1:50 afdrukken ("Hallo wereld") 

EEN R-script je kunt regel voor regel uitvoeren met de optie die we in het bovenste menu hebben genaamd Loop en we zullen de uitvoer van hetzelfde in de console zien, laten we het antwoord voor elke regel van ons script bekijken:

Hoe kunnen we zien dat de eerste regel ons het resultaat geeft dat we eerder hebben verkregen, de tweede regel creëert een lijst met getallen van 1 tot 50 waarbij het getal tussen haakjes de eerste index voor die regel is en uiteindelijk hebben we de indruk van de klassieke Hallo Wereld.
Nadat we de manieren hebben gezien waarop we met taal kunnen werken, gaan we verder met meer theoretische concepten om beter te begrijpen wat we beschikbaar hebben in taal om te werken en onze projecten uit te voeren.
Zoals in alle programmeertalen, variabelen zijn een van de belangrijkste aspecten, om ze te creëren in R We hoeven alleen de naam ervan te schrijven zonder het type te definiëren. Wij gebruiken de opdracht operator om de waarde aan de variabele te geven.
BelangrijkWe kunnen de waarde van een variabele met het gelijkteken toekennen, maar dit is een slechte gewoonte in R, gebruik de operator . om de juiste toewijzing te maken <-.
Laten we eens kijken hoe het toewijzen van een waarde aan een variabele en het vervolgens afdrukken ervan eruitziet:
 x <- 58 x 

We kunnen ook verschillende waarden toewijzen aan onze variabelen met de concatenate-functie:
y <- c (5, 2, 11, 28, 17)

Als we het voorbeeld uitvoeren, zien we in het rechterdeelvenster hoe we de waarde van . hebben x en de numerieke lijst die is toegewezen aan Y:

VERGROTEN

Bovendien, om een ​​variabele uit de werkruimte te verwijderen, hoeven we alleen de functie te gebruiken rm, we kunnen zelfs de hele werkruimte opschonen, laten we eens kijken hoe we dit doen:
 rm (x) rm (lijst = ls ()) 

Met de eerste regel elimineren we de variabele en met de tweede regel alle ruimte.
In taal hebben we vier datastructuren, die worden herkend door: R:
Cartoon vectorEen vector is een eendimensionale array waarin alle aanwezige gegevens van hetzelfde type moeten zijn, integer, char, enz. Bovendien is het belangrijk op te merken dat dit het basisgegevensobject is in R.
Arrays en matricesEen matrix is ​​vergelijkbaar met een vector waarbij de gegevens van hetzelfde type moeten zijn, maar de matrix heeft twee dimensies en de informatie is georganiseerd in rijen en kolommen. De array lijkt op de array, maar kan meer dan twee dimensies hebben.
GegevensframesDe dataframes zijn een verzameling vectoren van dezelfde lengte, het is vergelijkbaar met de matrix, maar de eigenaardigheid van dit type structuur is dat ze van gemengde gegevenstypen kunnen zijn, waarbij de vectoren zelfs namen kunnen hebben.
LijstenHet meest generieke type structuur in R, een lijst is een verzameling elementen van elke klasse, lengte of structuur, we kunnen zelfs andere lijsten hebben.
Verder, R Het heeft verschillende functies waarmee we het ene type structuur naar het andere kunnen converteren, laten we eens kijken:
als.vector ()Met deze functie kunt u matrices converteren naar eendimensionale vectoren.
als.matrix ()U kunt gegevensstructuren converteren naar een array.
als.data.frame ()U kunt datastructuren converteren naar dataframes.
als.lijst ()U kunt gegevensstructuren converteren naar lijsten.
Een van de sterke punten van R is dat je pakketten kunt toevoegen waarmee we de functionaliteiten van de taal kunnen uitbreiden. In andere talen komen deze plug-ins in bibliotheken, maar in R is de bibliotheek de plaats waar alle pakketten worden opgeslagen.
De pakketjes van R kan uit twee verschillende plaatsen komen, sommige komen met R standaard, maar ze zijn niet actief en andere zijn te vinden in online repositories.
Om de pakketten te zien die momenteel zijn geïnstalleerd of geladen, kunnen we de volgende functies uitvoeren:
 bibliotheek () zoeken () 

De functie bibliotheek () brengt ons een lijst van de pakketten die momenteel zijn geïnstalleerd, laten we een deel zien van wat het ons oplevert als we deze regel uitvoeren:

De functie zoeken () Aan de andere kant toont het ons per console de pakketten die momenteel zijn geladen, laten we in de volgende afbeelding zien welke pakketten we hebben geladen:

Bovendien, om pakketten te installeren, kunnen we dit op verschillende manieren doen, de eerste is via de optie in het bovenste menu Extra> Pakketten installeren en dan hebben we via functies van de taal, de laatste is degene die we aanbevelen, omdat het dus deel kan uitmaken van ons script.
Om een ​​pakket te installeren gebruiken we: install.packages, hierna moeten we het opnemen, we kunnen gebruiken bibliotheek of vereisen Hiervoor is het echter het beste om de laatste te gebruiken om verwarring met de reikwijdte van de functies te voorkomen, laten we eens kijken hoe we het pakket installeren en opnemen ggplot2:
 install.packages ("ggplot2") vereisen ("ggplot2") 

Eindelijk om een ​​pakket te verwijderen dat we kunnen gebruiken verwijder.pakketten, laten we eens kijken hoe het wordt gebruikt:
verwijder.pakketten ("ggplot2")

Hiermee sluiten we deze tutorial af, waarmee we al een idee hebben hoe ermee te werken R, naast het hebben van verduidelijkte punten zoals variabelen en gegevensstructuren, essentiële aspecten die we moeten kennen om ten volle te profiteren van deze krachtige en effectieve taal.Vond je deze Tutorial leuk en heb je eraan geholpen?Je kunt de auteur belonen door op deze knop te drukken om hem een ​​positief punt te geven
wave wave wave wave wave