✅ Python - Externe bestanden

Inhoudsopgave

Python stelt ons in staat om met externe bestanden te werken, misschien klinkt dit op deze manier niet logisch, maar externe bestanden zijn in dit geval niets meer dan query's naar webpagina's vanuit ons Python-programma, de reden om dit te doen kan zijn van query naar REST-webservices waarmee we waarden kunnen verkrijgen door KRIJGEN of direct pagina's opvragen en hun inhoud manipuleren.

Om dit te bereiken, zullen we enkele van de vele bibliotheken gebruiken die het biedt Python voor het werken met netwerken, waardoor technische obstakels worden weggenomen en we ons alleen concentreren op hoe belangrijk het is in onze programmeerlogica.

urllib en urllib2
Deze twee boekhandels urllib Y urllib2 Ze stellen ons in staat om toegang te krijgen tot bestanden via het netwerk alsof ze zich in onze lokale omgeving bevinden, door een eenvoudige aanroep van een functie, dit kan ons voor veel dingen dienen, bijvoorbeeld dat we een web kunnen gebruiken en met zijn inhoud maak in ons programma rapportages van wat we erin kunnen vinden.

Deze twee bibliotheken zijn vergelijkbaar, hun verschil is dat: urllib2 het kan een beetje geavanceerder zijn, waar als we gewoon een vraag willen stellen zonder verdere implicaties, we kunnen gebruiken urllib, maar als we een authenticatieproces willen doen of cookies willen gebruiken, dan urllib2 het kan de juiste keuze zijn voor ons programma.

Omdat we theoretisch weten wat we nodig hebben en waarom we het nodig hebben, laten we een klein codevoorbeeld bekijken zodat het ons duidelijk is wat we kunnen doen, in het volgende voorbeeld gaan we een web openen vanuit ons programma en vervolgens via reguliere expressies we gaan een link van de inhoud extraheren, hiervoor zullen we gebruiken urllib:

 >>> from urllib import urlopen >>> webpagina = urlopen ('http://www.python.org') >>> import re >>> text = webpagina.read () >>> m = re.search ( 'Tutorial', tekst, re.IGNORECASE) >>> m.groep (1)

We gaan stap voor stap, eerst uit de urllib-bibliotheek die we importeren urlopen, dan maken we een variabele genaamd webpagina welke is degene die het resultaat zal bevatten van urlopen Wat gaan we doen met de officiële website van Python, hiermee importeren we alvast met betrekking tot Om met reguliere expressies te werken, zeggen we dat tekst de variabele is die de inhoud van de gelezen pagina zal hebben, we doen een zoekopdracht met een reguliere expressie en tenslotte groeperen we het resultaat, dat het volgende zou moeten afdrukken:

http://docs.python.org/

Dit is te danken aan de methode urlopenWat u doet, is dat het ons met de webpagina laat werken alsof het een bestandsobject is, op deze manier kunnen we veel van de functies toepassen die we met dit soort objecten kunnen gebruiken, zelfs als we willen, kunnen we de pagina downloaden en werk het vanuit onze lokale op een zeer gemakkelijke manier met behulp van de methode urlophalen als volgt:

 urlretrieve ('http://www.python.org', 'C: \ python_webpage.html')

Het enige dat we doen is als tweede parameter het pad in onze lokale omgeving doorgeven waar het bestand met de kopie van de pagina zonder veel moeite moet worden opgeslagen.

Hiermee sluiten we deze tutorial af, omdat we zien dat het doen van meer complex werk zoals het gebruik van pagina's in onze programma's vrij eenvoudig is dankzij de bibliotheken van Python.

Vond je deze tutorial leuk en hielp je hem?Je kunt de auteur belonen door op deze knop te drukken om hem een positief punt te geven