Kahulugan ng Spidering at Web Crawlers

Spiders & Web Crawlers: Ano ang Kailangan Mong Malaman upang Protektahan ang Data ng Website

Ang mga spider ay mga programa (o mga awtomatikong script) na 'nag-crawl' sa pamamagitan ng Web na naghahanap ng data. Ang mga spider ay naglalakbay sa pamamagitan ng mga URL ng website at makakukuha ng data mula sa mga web page tulad ng mga email address. Ginagamit din ang mga spider upang magpakain ng impormasyon na matatagpuan sa mga website sa mga search engine.

Ang mga spider, na tinutukoy din bilang 'web crawlers' sa paghahanap sa Web at hindi lahat ay magiliw sa kanilang layunin.

Spammer Spider Websites upang Mangolekta ng Impormasyon

Google, Yahoo!

at iba pang mga search engine ay hindi lamang ang mga interesado sa pag-crawl ng mga website - kaya mga scammer at spammers.

Ang mga spider at iba pang mga automated na tool ay ginagamit ng mga spammer upang makahanap ng mga email address (sa internet ang karanasang ito ay madalas na tinutukoy bilang 'pag-aani') sa mga website at pagkatapos ay gamitin ang mga ito upang lumikha ng mga listahan ng spam.

Ang mga spider ay isang tool na ginagamit ng mga search engine upang malaman ang higit pang impormasyon tungkol sa iyong website ngunit iniwan ang walang check, isang website na walang mga tagubilin (o, 'mga pahintulot') kung paano i-crawl ang iyong site ay maaaring magpakita ng mga pangunahing panganib sa seguridad ng impormasyon. Ang mga spider ay naglalakbay sa pamamagitan ng mga sumusunod na mga link, at ang mga ito ay napaka-sanay sa paghahanap ng mga link sa mga database, mga file ng programa, at iba pang impormasyon na maaaring hindi mo nais na magkaroon ng access sa kanila.

Maaaring tingnan ng mga Webmaster ang mga log upang makita kung anong mga spider at iba pang mga robot ang bumisita sa kanilang mga site. Ang impormasyong ito ay tumutulong sa mga webmaster na alam kung sino ang ini-index ng kanilang site, at kung gaano kadalas.

Ang impormasyong ito ay kapaki-pakinabang dahil pinapayagan nito ang mga webmaster na maayos ang kanilang SEO at i-update ang mga file na robot.txt upang ipagbawal ang ilang mga robot mula sa pag-crawl sa kanilang site sa hinaharap.

Mga Tip sa Pagprotekta sa Iyong Website Mula sa Hindi Gustong Robot Crawlers

Mayroong medyo simpleng paraan upang mapanatili ang mga hindi gustong mga crawler sa iyong website. Kahit na hindi kayo nag-aalala tungkol sa mga nakakahamak na spider na nag-crawl sa iyong site (ang obfuscating email address ay hindi mapoprotektahan ka mula sa karamihan ng mga crawler), kailangan mo pa ring magbigay ng mga search engine na may mahalagang mga tagubilin.

Ang lahat ng mga website ay dapat magkaroon ng isang file na matatagpuan sa direktoryo ng root na tinatawag na robots.txt file. Ang file na ito ay nagbibigay-daan sa iyo upang turuan ang mga crawler sa web kung saan nais mong tumingin sila sa mga pahina ng index (maliban kung nakasaad sa meta data ng isang tukoy na pahina upang mai-index) kung sila ay isang search engine.

Tulad ng maaari mong sabihin sa mga wanted crawler kung saan mo gustong mag-browse, maaari mo ring sabihin sa kanila kung saan hindi sila maaaring pumunta at kahit na harangan ang mga partikular na crawler mula sa iyong buong website.

Mahalaga na tandaan na ang isang mahusay na magkasama robots.txt file ay magkakaroon ng napakalaking halaga para sa mga search engine at maaaring maging isang mahalagang elemento sa pagpapabuti ng pagganap ng iyong website, ngunit ilang mga robot na crawler ay hindi papansinin ang iyong mga tagubilin. Dahil dito, mahalaga na panatilihing napapanahon ang lahat ng iyong software, plugins, at apps sa lahat ng oras.

Kaugnay na mga Artikulo at Impormasyon

Dahil sa pagkalat ng pag-aanunsiyo ng impormasyon na ginamit sa mga layunin ng kasuklam-suklam (spam), ipinasa ang batas noong 2003 upang iligal ang ilang mga gawi. Ang mga batas sa proteksyon ng consumer ay nasa ilalim ng CAN-SPAM Act of 2003.

Mahalagang maglaan ka ng oras upang magbasa sa Batas sa CAN-SPAM kung ang iyong negosyo ay nakikipag-ugnayan sa anumang pagpapadala ng masa o pag-aani ng impormasyon.

Maaari mong malaman ang higit pa tungkol sa mga batas laban sa spam at kung paano makitungo sa mga spammer, at kung ano ang hindi mo maaaring gawin ng may-ari ng negosyo, sa pamamagitan ng pagbabasa ng mga sumusunod na artikulo: