Google Bekerja





Jika Anda tidak tertarik untuk belajar bagaimana Google membuat indeks dan database dokumen yang ia mengakses saat memproses permintaan, melewatkan deskripsi ini. Saya mengadaptasi gambaran berikut dari Chris Sherman dan bagus deskripsi Harga Gary dari Bagaimana Search Engine Bekerja di Bab 2 dari The Invisible Web(CyberAge Books, 2001).


Google berjalan pada jaringan terdistribusi dari ribuan komputer murah dan karena itu dapat melaksanakan pemrosesan paralel cepat. pengolahan paralel adalah metode perhitungan di mana banyak perhitungan dapat dilakukan secara simultan, secara signifikan mempercepat pengolahan data. Google memiliki tiga bagian yang berbeda:
  • Googlebot, web crawler yang menemukan dan mengambil halaman web.
  • indexer bahwa setiap jenis kata pada setiap halaman dan menyimpan hasil indeks kata dalam database yang besar.
  • Prosesor query, yang membandingkan permintaan pencarian Anda ke indeks dan merekomendasikan dokumen yang dianggap paling relevan.
Mari kita lihat lebih dekat pada setiap bagian.

1. Googlebot, Web Crawler Google

Googlebot adalah web Google merangkak robot, yang menemukan dan mengambil halaman web dan tangan mereka ke indexer Google.Sangat mudah untuk membayangkan Googlebot sebagai laba-laba sedikit bergegas melintasi untai maya, namun pada kenyataannya tidak Googlebot melintasi web sama sekali. Ia berfungsi seperti browser web Anda, dengan mengirimkan permintaan kepada server web untuk halaman Web, men-download seluruh halaman, kemudian menyerahkannya ke indexer Google.
Googlebot terdiri dari banyak komputer meminta dan mengambil halaman jauh lebih cepat dari yang Anda dapat dengan browser web Anda. Bahkan, Googlebot dapat meminta ribuan halaman yang berbeda secara bersamaan. Untuk menghindari server web yang luar biasa, atau permintaan crowding out dari pengguna manusia, Googlebot sengaja membuat permintaan dari masing-masing individu web server lebih lambat daripada yang mampu melakukan.
Googlebot menemukan halaman dalam dua cara: melalui formulir tambah URL, www.google.com / addurl.html , dan melalui menemukan link dengan merangkak web.
yangnya, spammer menemukan cara untuk membuat bot otomatis bahwa bentuk dibombardir tambah URL dengan jutaan URL yang menunjuk ke propaganda komersial. Google menolak semua URL yang dikirimkan melalui formulir Tambahkan URL bahwa tersangka berusaha untuk menipu pengguna dengan menggunakan taktik seperti termasuk teks tersembunyi atau link pada halaman, isian halaman dengan kata-kata yang tidak relevan, cloaking (umpan alias dan switch), menggunakan sneaky redirects , pintu menciptakan, domain, atau sub-domain dengan isi yang serupa secara substansial, mengirimkan query otomatis ke Google, dan terhubung ke tetangga yang buruk. Jadi sekarang Tambahkan URL bentuk juga memiliki tes: ini akan menampilkan beberapa berlekuk-lekuk huruf yang dirancang untuk menipu otomatis "surat-guessers"; itu meminta Anda untuk memasukkan huruf yang Anda lihat - sesuatu seperti grafik-tes mata untuk menghentikan robot spam.

Ketika Googlebot menjemput halaman, itu sisa-sisa semua link muncul di halaman dan menambahkan mereka ke antrian untuk merangkak berikutnya. Googlebot cenderung menghadapi spam sedikit karena sebagian besar penulis web link hanya untuk apa yang mereka yakini adalah halaman berkualitas tinggi. Dengan panen link dari setiap halaman itu pertemuan, Googlebot dapat dengan cepat membangun sebuah daftar link yang dapat menutupi mencapai luas dari web. Teknik ini, dikenal sebagai deep merangkak, juga memungkinkan Googlebot untuk menyelidiki jauh di dalam setiap situs. Karena skala besar mereka, dalam merangkak dapat mencapai hampir setiap halaman di web. Karena web sangat luas, hal ini dapat memakan waktu, sehingga beberapa halaman mungkin dijelajahi hanya sekali sebulan.
Meskipun fungsinya sederhana, Googlebot harus diprogram untuk menangani beberapa tantangan. Pertama, sejak Googlebot mengirimkan permintaan secara simultan untuk ribuan halaman, antrian "kunjungi segera" URL harus selalu diperiksa dan dibandingkan dengan URL sudah ada dalam indeks Google. Duplikat dalam antrian harus dihilangkan untuk mencegah Googlebot dari mengambil halaman yang sama lagi. Googlebot harus menentukan seberapa sering mengunjungi kembali halaman. Di satu sisi, membuang-buang sumber daya mengindeks ulang halaman tidak berubah. Di sisi lain, Google ingin kembali berubah halaman indeks untuk memberikan hasil yang up-to-date.
Untuk menjaga indeks saat ini, Google terus recrawls populer sering mengubah halaman web pada tingkat kasar sebanding dengan seberapa sering perubahan halaman. Seperti indeks terus merangkak arus dan dikenal sebagai segar merangkak. halaman koran-download harian, halaman dengan harga saham di-download lebih sering. Tentu saja, segar kembali menjelajah halaman lebih sedikit daripada merangkak dalam. Kombinasi dari dua jenis merangkak memungkinkan Google untuk kedua memanfaatkan sumber daya yang efisien dan menjaga indeksnya cukup saat ini.

2. Indexer Google

Googlebot indexer yang memberikan teks lengkap dari halaman yang ditemukan. Halaman-halaman ini disimpan dalam database indeks Google. Indeks ini diurutkan menurut abjad berdasarkan istilah pencarian, dengan setiap entri indeks menyimpan daftar dokumen di mana istilah itu muncul dan lokasi dalam teks mana peristiwa itu terjadi. Struktur data ini memungkinkan akses cepat untuk dokumen yang mengandung kata permintaan pengguna.
Untuk meningkatkan performa pencarian, Google mengabaikan (tidak indeks) kata-kata umum yang disebut kata-kata berhenti (seperti, yang, pada, atau, dari, bagaimana, mengapa, serta digit-digit dan huruf tunggal). Hentikan kata-kata sangat umum bahwa mereka berbuat banyak untuk mempersempit sebuah pencarian, dan karena itu mereka dapat dibuang dengan aman. indexer juga mengabaikan beberapa tanda baca dan beberapa ruang, serta mengkonversi semua huruf untuk huruf kecil, untuk meningkatkan kinerja Google.

3. Google's Query Processor

Prosesor query memiliki beberapa bagian, termasuk user interface (kotak pencarian), mesin "" yang mengevaluasi permintaan mereka dan sesuai dengan dokumen-dokumen yang relevan, dan formatter hasil.
PageRank adalah yang sistem Google untuk peringkat halaman web. Halaman dengan PageRank lebih tinggi dianggap lebih penting dan lebih mungkin untuk dicatatkan di atas halaman dengan PageRank rendah.
Google menganggap lebih dari seratus faktor dalam komputasi PageRank dan menentukan dokumen yang paling relevan dengan query, termasuk popularitas halaman, posisi dan ukuran istilah pencarian di dalam halaman, dan kedekatan istilah pencarian satu sama lain pada halaman. Sebuah aplikasi paten membahas faktor-faktor lain yang dipertimbangkan ketika Google peringkat halaman. KunjungiSEOmoz.org 'laporan untuk interpretasi konsep-konsep dan aplikasi praktis yang terdapat dalam aplikasi paten Google.
Google juga menggunakan mesin-belajar teknik untuk meningkatkan kinerjanya secara otomatis dengan mempelajari hubungan dan asosiasi di dalam data yang tersimpan. Sebagai contoh, mengoreksi sistem ejaan menggunakan teknik tersebut untuk mengetahui kemungkinan ejaan alternatif. Google erat penjaga menggunakan rumus untuk menghitung relevansi; mereka tweak untuk meningkatkan kualitas dan kinerja, dan untuk mengecoh terbaru teknik licik yang digunakan oleh spammer.
Pengindeksan teks lengkap dari web memungkinkan Google melampaui hanya pencocokan istilah pencarian tunggal. Google memberikan prioritas untuk halaman yang memiliki istilah pencarian dekat satu sama lain dan dalam urutan yang sama seperti query. Google juga bisa mencocokkan multi-frasa kata dan kalimat. Sejak kode HTML Google indeks selain teks pada halaman, pengguna dapat membatasi pencarian berdasarkan kata-kata di mana permintaan muncul, misalnya, dalam judul, di URL, di dalam tubuh, dan di link ke halaman, opsi yang ditawarkan dengan Formulir Advanced Search dari Google dan Menggunakan Operator Pencarian (Operator Advanced) .
Mari kita lihat bagaimana proses permintaan Google.

Untuk informasi lebih lanjut tentang cara Google bekerja, lihat artikel berikut.
tag (kata kunci):  ,  ,  ,  ,  ,  ,  ,  ,