Internett: Oppretting av Robots.txt-filen og dens betydning

Hvis du tenker du har utviklet en virkelig flott søkeord-rik entydig-innhold fullt optimalisert nettsted for søkemotorer og generere området for besøkende - det er bra, men vet du at du mangler noe? En robots.txt-fil. Tok du med den? For øvrig vet du hva er betydningen av en robots.txt-fil?

Suksessen til store selskaper ligger i å holde deres konfidensielle data en hemmelighet, skjult fra alle. De fortelle verden noe og gjøre noe. Dette gjør det mulig for dem å utføre sine fremtidige løpet av handlingen lett og endre planer i henhold til situasjonen. Jobben av robots.txt-filen er den samme. Det kan eller kan ikke tillate en søkemotor å besøke noen av eller alle websidene. Selvfølgelig er en menneskelig besøkende fri til å besøke disse sidene. Det å være tilfelle, for søkemotorer kan ditt nettsted være annerledes enn hva en besøkende ser. Du kan gjøre hvis du tror en eller noen av sidene/fil-størrelse ikke er god nok til å bli besøkt av en bestemt søkemotor eller motorer. Selv om dette ikke anbefales - bør nettstedet ditt gjøres på en slik måte det ikke bør viker unna søkemotorer. Likevel sin alltid bedre å vite grunnleggende om skriving av robots.txt-filen. Det vil hjelpe deg. Vi vil diskutere lenger ned - robots.txt-filen er viktig. Jeg gjentar igjen - gjør ikke sider du mener bør være skjult for søkemotorer. Hvis en søkemotor tror du er opp til noen triks, kanskje det panelize området forårsaker en nei-rang - i verste fall for alltid!

Hver søkemotor har en "robot" (et program) som gjør jobben med å besøke et webområde. Deres formål er å "vet" nettstedet, hva det handler om, samle all informasjon om det osv. Søkemotor roboter samle inn denne informasjonen, og ta dem med tilbake til sine databaser for å vise dem i sine søkeresultater. Så hvis webområdet ditt ikke er det i deres database vises det aldri i søkeresultatene.

Web Robots er noen ganger referert til som Web kravlet eller edderkopp. Prosessen med en robot som besøker nettstedet ditt er derfor kalt "Spidering" eller "Gjennomgangsfrekvens". Når noen sier "søkemotorer har spidered min nettside," det betyr søkemotor roboter har besøkt deres nettsted. Denne roboten er kjent av et navn, og har en uavhengig IP-adresse. Denne IP-adressen er av ingen betydning for oss, men å vite navnene deres vil hjelpe ettersom dette navnet vil bli brukt når vi opprette en robots.txt-fil. Dette er grunnen til at filen blir kalt "robots.txt." Nedenfor er en liste av roboter av noen av de populære søkemotorene:

Søkemotor - Robot
Alexa.com - ia_archiver
AltaVista.com - Scooter (kjøpt av Yahoo)
UK.AltaVista.com - AltaVista-intranett (kjøpt av Yahoo)
AllTheWeb.com - FAST-WebCrawler (kjøpt av Yahoo)
Excite.com - ArchitextSpider
Euroseek.NET - Arachnoidea
Gendoor.com (genealogiske søkemotor) - GenCrawler
Google.com - Googlebot (http://www.google.com/bot.html)
Hotbot.com (bruker Inktomi's robot) - Slurp
Inktomi.com Slurp-(slurp@inktomi.com) (Bought av Yahoo)
Infoseek.com - UltraSeek
Looksmart.com - MantraAgent
Lycos.com - Lycos_Spider_(T-Rex)
Northernlight.com - Gulliver
Nationaldirectory.com - NationalDirectory-SuperSpider
UKSearcher.co.uk - UK søkeren edderkopp

Skrive Robots.txt:

La oss lære å skrive robots-kommandoen. Legg merke til at det finnes to måter å skrive robots-kommandoen. En er å inkludere alle kommandoene i en tekstfil kalt "robots.txt", og en annen er å skrive robots kommandoen i metakoden.

Vi vil lære begge måter å skrive robots-kommandoen.

Skrive robots kommandoen i Meta-kode:

Det er 4 ting du kan fortelle en søk-motor-robot ved forespørsel om (besøk) siden din:

1) Indekserer ikke denne siden - søkemotorer indekserer ikke siden.
2) Gjør ikke følger koblinger på denne siden - søkemotorer vil ikke følge koblingene som er tatt med i siden, dvs. de indekserer ikke alle sider som denne siden kobler til.
3) Gjøre indeks denne siden - søkemotorer vil indeksere siden.
4) Gjør-Følg koblinger - søkemotorer vil indeksere sider som denne siden kobler til.

Merk at "indeks" er annerledes enn "edderkopp". Et søk søkemotorspiderne første en side og indekserer deretter det. Indeksering gir en viss betydning til siden på grunnlag av dens innhold, informasjon, metakoder, link popularitet med hensyn til søkte søkeord. Alt dette er avgjort ved kjøretid. Når du forteller søkemotorer ikke å indeksere en side, betyr det at de vet at "visse" side finnes, men rangere ikke dem. Det vil si vises nei-indeksside aldri i søkeresultatene. Dette betyr i alle fall ikke at en nei-indeksen siden ikke vil få besøkende, det kan få besøkende indirekte fra en side hvilke koblinger til den. Ja, ingen direkte besøkende fra søkemotorer.

Anta at du vil at søkemotorer for indeksen, og også index (Følg) ta sin koblede sider deretter med følgende kommando i Meta-kode:

meta name = "robots" content = "-indeksen, følger"

Anta at du vil at søkemotorer skal indeksere en side, men ikke følger koblinger så ta med følgende kommando i Meta-kode:

meta name = "robots" content = "index, nofollow"

Tenk deg at du ikke vil at søkemotorer skal indeksere en side, men Følg koblinger så ta med følgende kommando i Meta-kode:

meta name = "robots" content = "noindex, follow"

Anta at du ikke gjøre vil at søkemotorer skal enten indeksere eller Følg koblinger på en bestemt side og ta med følgende kommando i Meta-kode:

meta name = "robots" content = "noindex, nofollow"

Merk:
Google gjør en "skjulested" av alle filene den edderkopper. Det er en liten snap shot av siden. Vil du stoppe Google fra å gjøre det? Inkluder følgende Meta-kode:

meta name = "robots" content = "noindex, nofollow, noarchive"

Som alle metakoden skal ovenfor skriftlig kodene plasseres i HEAD-delen av en HTML-side.

Opprette robots.txt-filen:

En robots.txt-fil er en uavhengig fil, og bør være skrevet i et rent tekstredigeringsprogram som Notisblokk. Bruk ikke MS Word eller et annet tekstredigeringsprogram til å opprette robots.txt. Hovedpoenget er at denne filen skal ha filendelsen «.txt» annet det vil være ubrukelig.

La oss begynne. Åpne Notisblokk (det kommer gratis med Microsoft Windows), og lagre filen med navnet "robots.txt". Kontroller at filtypen .txt.

For øvrig, fikk du notere vi ikke fikk bruke navnet på noen robot i metakoden! Hva gjør det tilsier? Enkelt - ved å bruke meta du direkte alle søkemotorer å gjøre noe eller ikke gjøre noe på en side. Du har ikke kontroll over en én søkemotor. Løsningen er robots.txt.

Det kan alltid skje du ikke vil at en bestemt søkemotor å indeksere en side for bestemte årsaker. I så fall bruke en robots.txt-filen vil hjelpe. Selv om jeg ikke anbefaler noe slikt. Søkemotorer få deg trafikk, hvorfor hater dem. Stoppe dem fra å gjøre jobben sin, og de hater deg. Jeg gjentar igjen holde sidene smart for søkemotorer og aksepteres dem. Greit, så hvorfor ta bryet å lære robots.txt? Hvorfor bør du inkludere en robots.txt-fil i det hele tatt?

La oss anta at din er et dynamisk databaseområde som inneholder informasjon om dine nyhetsbrev abonnenter, telefonnumre kunder, deres adresse, osv. Alle disse konfidensiell informasjon er holdt i en egen katalog kalt "admin". (Det anbefales å holde slik informasjon i en egen katalog. Håndtering data blir enklere for deg, og så vil være enkelt å holde unna søkemotorer. Vi vil bare vite hvordan.) Jeg er sikker du ville aldri vil enhver uautorisert person å besøke dette området forlater alene søkemotorer. Det hjelper ikke søkemotorer enten siden de har ingenting å gjøre med data eller filer der. Her kommer rollen som en robots.txt-fil. Skrive følgende i filen robots.txt: (Ignorer vannrett rad - de er inkludert bare for å skille kommandoene fra resten av teksten.)

---------------------------

User-agent: *
Ikke Tillat: /admin/

---------------------------

Dette tillater ikke edderkoppene å indeksere alt i admin-mappen som er også inkludert undermapper hvis noen.

Stjerne (*) angir alle søkemotorer. Hvordan kan du stoppe en bestemt søkemotor fra spidering filer eller katalogen?

Anta at du vil stoppe Excite fra spidering denne katalogen:

-----------------------------

User-agent: ArchitextSpider
Ikke Tillat: /admin/

------------------------------

Anta at du vil stoppe Excite og Google fra spidering denne katalogen:

------------------------------

User-agent: ArchitextSpider
Ikke Tillat: /admin/

User-agent: Googlebot
Ikke Tillat: /admin/

------------------------------

Filene er ikke annerledes. Anta at du vil bruke en fil datafile.html ikke å være spidered av Excite:

------------------------------

User-Agent: ArchitextSpider
Ikke Tillat: /datafile.html

-------------------------------

På samme måte ønsker du ikke å være spidered av Google for:

-------------------------------

User-agent: ArchitextSpider
Ikke Tillat: /datafile.html

User-agent: Googlebot
Ikke Tillat: /datafile.html

-------------------------------

La oss si at du ønsker to filer datafile1.html og datafile2.html ikke å være spidered av Excite:

-------------------------------

User-Agent: ArchitextSpider
Ikke Tillat: /datafile1.html
Ikke Tillat: /datafile2.html

-------------------------------

Kan du gjette hva betyr følgende bety?

-------------------------------

User-agent: ArchitextSpider
Ikke Tillat: /datafile1.html
Ikke Tillat: /datafile2.html

User-agent: Googlebot
Ikke Tillat: /datafile1.html

--------------------------------

Opphisse vil ikke edderkopp datafile1.html og datafile2.html, men Google vil ikke edderkopp bare datafile1.html. Vil det edderkopp datafile2.html og resten av filene i mappen.

Tenk du har en fil som er holdt i en sub-katalogen som du ville like å bli spidered. hva gjør du? Kan anta at undermappen er "offisielle" og filen "confidential.html".

--------------------------------

User-agent: *
Ikke Tillat: /official/confidential.html

--------------------------------

Jeg håper det er nok. Selvfølgelig kreves litt øvelse. Hvis syntaksen for robots.txt-filen ikke er riktig skrevet, ignorere søkemotorer den aktuelle kommandoen. Før du laster opp filen robots.txt dobbel sjekk for alle mulige feil. Du bør laste opp robots.txt-filen i rotkatalogen på serveren. Søkemotorer se etter robots.txt-filen bare i rotkatalogen annet de helt ignorerer den. Det meste rotmappen er mappen der indekssiden beholdes. I så fall kan du holde robots.txt-filen i samme mappe som indeksfilen.

Merk: Du skal kunne se robots.txt-fil hvis du skriver inn følgende i adressefeltet i webleseren.

http://www.your-domain.com/robots.txt

(Hvor ditt domene er domenenavnet til webområdet ditt. Hvis din ikke er et .com-område, erstatte .com med respektive filtypen ditt nettsted. For e.g..net, .us, .org osv.)

Du må kanskje lurer på om du skal bruke Meta-kode eller Robots.txt eller hvilke av disse er mer effektivt!

En robots.txt riktig skrevet er mer effektiv enn metakoden. Alle søk motorer støtte robots.txt, men ikke alle søk motorer støtte robots kommandoen skrevet i metakoder. Jeg anbefaler at du bruker både slik at du dekker området i begge scenariene.

En siste ting - kan du se i din web server loggfiler hvis du vil se hva søkemotoren robots har besøkt. De alle la signaturer som kan oppdages. Disse signaturene er ingenting men navnet på sine roboter. For eksempel hvis Google har spidered webområdet ditt vil det la en loggfil som er kalt Googlebot. Dette er hvordan du vet som søkemotor har spidered sidene og når!

--------------------------------
Denne artikkelen kan være re-printed og/eller publisert på nettet eller frakoblet for gratis, gitt websiden, http://www.searchengineoptimizationpromotion.com, blir postert sammen med den.
--------------------------------

Internett

Saturday, December 24, 2011

Oppretting av Robots.txt-filen og dens betydning

No comments:

Post a Comment