Een website klonen met HTTrack

Inhoudsopgave

HTTrack is gratis en gratis en multiplatform-software met als doel het vastleggen van het web, dat wil zeggen dat een website geheel of gedeeltelijk wordt gedownload om er later offline door te kunnen navigeren. Er is een versie voor Linux genaamd WebHTTrack, en de versie voor Windows heet WinHTTrack. We kunnen de HTTrack-software downloaden van de officiële website:

In het geval van Linux kunnen we het ook vanuit de repositories installeren met behulp van de volgende opdracht.

 sudo apt-get install httrack

Deze software het wordt veel gebruikt voor het kopiëren van websites en upload ze vervolgens naar een andere server en gebruik ze om verkeer om te leiden naar de kopieerpagina, waardoor bezoekers naar een neppagina worden gestuurd. Het wordt ook gebruikt door degenen die de code of de werking van een bepaalde website willen zien. Laten we een voorbeeld bekijken met de website httrack.com, waar de applicatie wordt gehost.

 httrack "httrack.com"
Met deze opdracht worden de bestanden van internet naar een map gedownload www.httrack.com, die we lokaal kunnen zien.

HTTrack neemt elke website en maakt een kopie in de map of het station waar we zijn gepositioneerd. Dit kan handig zijn bij het offline zoeken naar gegevens op de website, zoals e-mailadressen, nuttige informatie voor seo of structuur van een website. HTTrack komt zowel in Windows als in een versie voor Linux, en het gebruik is hetzelfde, alleen dat het in Windows visuele intergaz heeft.

Wij kunnen gebruik Httrack voor penetratietesten en beveiligingstests, aangezien het bij het maken van een replica van een website de mogelijkheid biedt om de volledige inhoud te analyseren en welke bestanden worden gedownload, om te bepalen of een aanvaller geen kritiek bestand kan zien. Wanneer we gegevens en informatie verzamelen, kunnen we tests uitvoeren, code of trefwoorden zoeken en analyseren, we kunnen ook gegevens verzamelen die later kunnen worden gebruikt.

Ook op deze manier lhackers gebruiken de gemaakte kopieën om het naar een server te uploaden met een webachtig domein gekopieerd om de websites te emuleren en deze vervolgens via phishing te gebruiken om gegevens van nietsvermoedende gebruikers te stelen of om social engineering-aanvallen uit te voeren. Httrack heeft veel opties en parameters om te gebruiken om de download te verbeteren, hiervoor wordt het commando gebruikt:

 httrack --help

Enkele belangrijke parameters die we kunnen gebruiken met de Httrack-tool zijn:

  • -m: geeft bijvoorbeeld de maximale bestandsgrootte in bytes aan om te downloaden -m 20000000 gelijk aan 20mb.
  • -mime: gebruikt om alleen een bepaald type bestand te downloaden dat we zullen aangeven met de extensie, bijvoorbeeld met het commando
 httrack www.WEB.com -mime: applicatie / * + mime: applicatie / pdf
Het gebruik van httrack is eenvoudig, we moeten het domein van de website die we willen kopiëren toevoegen en vervolgens de scan starten gepositioneerd in een map op onze harde schijf waar we de website gaan opslaan. We moeten rekening houden met hoeveel links of inhoud een website kan hebben vanwege de hoeveelheid informatie die moet worden gedownload. Het verkennen van de kopie van het web kan worden gebruikt om te zoeken naar fouten en kwetsbaarheden die het browsen in gevaar kunnen brengen, en om te bepalen welke delen het handigst zijn om te coderen of de beveiliging te verhogen.

Als het doel van de download is om informatie over een bedrijf of lijsten met gebruikers, telefoons of andere gegevens te vinden, met name voor social engineering of om een ​​website of login te vervalsen om gebruikersgegevens te verkrijgen, dan is HTTrack een uitstekend hulpmiddel voor beide taken.

Grafische interface met WebHTTrack
WebHTTrack is een grafische interface voor httrack die wordt gebruikt vanuit een webbrowser en staat kopieën van hele websites toe voor offline toegang en past links automatisch aan. Tools zoals WebHTTrack kunnen helpen en de update van de kopie mogelijk maken zonder de parameters te hoeven onthouden om een ​​website en de inhoud ervan te downloaden of te kopiëren. We kunnen het installeren met het commando:

 sudo apt-get install webhttrack
Dan naar voer het uit we zullen hetzelfde commando schrijven:
 internettrack
Tot start de grafische interface, we kunnen direct door het applicatiemenu gaan en we zijn op zoek naar de toepassing Browse Mirrored Websites.

Een andere optie is simpelweg, zoals we eerder zeiden vanuit het terminalvenster, de opdracht webhttrack te schrijven om een ​​lokale webserver op poort 8080 te starten, dan openen we de browser rekening houdend met het feit dat deze niet in incognito- of privémodus is en in de browser schrijven we het adres localhost: 8080.

Dit zal ons de grafische wizard tonen die ons zal helpen om met httrack te werken, om te beginnen zullen we de taal moeten configureren en op Volgende moeten klikken. Vervolgens zullen we een nieuw project configureren, het voordeel van de grafische interface is dat we de gegevens van de gedownloade websites en de gebruikte parameters in een tekstbestand kunnen opslaan.

Vervolgens zullen we de website toewijzen die we gaan kopiëren:

Vervolgens zullen we in Opties definiëren de parameters en filters configureren via een wizard:

Na het configureren van de filters beginnen we op het volgende scherm met de scan.

Nadelen van het gebruik van HttrackHet gebruik van de Httrack-tool om dit soort scannen en downloaden van een website uit te voeren, heeft enkele nadelen, zoals de volgende:

  • Het legt geen dynamische inhoud of gescripte pagina's vast.
  • Als u sites downloadt die te groot zijn of met grote bestanden, kan de server crashen.
  • Als we httrack gebruiken in te veel gelijktijdige verbindingen met dezelfde website, kunnen we de server vertragen of buiten dienst stellen.

De tutorial waarin een code wordt gemaakt om links te volgen, kan interessant voor je zijn:

Weblinks volgen met Python

Vond je deze Tutorial leuk en heb je eraan geholpen?Je kunt de auteur belonen door op deze knop te drukken om hem een ​​positief punt te geven
wave wave wave wave wave