1. Khái niệm về Search Engine (SE):

Search engine là một công cụ phần mềm nhằm tìm ra các trang trên mạng dựa vào các thông tin mà nó có. Thông tin của search engine thực chất là một loại cơ sở dữ liệu (database) cực lớn. Công cụ này tìm các tài liệu dựa trên các từ khoá (keyword) và trả về một danh mục của các trang có chứa từ khoá. Có ba loại search engine: spider, meta-search engine và hierarchical search engine.

1.1. Spider:

Cơ sở dữ liệu của các search engine được cập nhật hoá bởi các chương trình đặc biệt thường gọi là “robot”, “spider” hay “webcrawler”. Các chương trình này sẽ tự động dò tìm và phân tích từ những trang có sẵn trong cơ sở dữ liệu để kiếm ra các nối kết (link) từ các trang và trở lại bổ sung dữ liệu cho các search engine sau khi phân tích. Các chương trình này cũng sẽ báo cáo về các liên kết đã bị đào thải. Từ khoá mà bạn gõ vào là để cho search engine kiếm trong bảng chỉ mục (index) của nó. Kết quả đúng nhất sẽ được xếp ở thứ tự đầu tiên. Trang nổi tiếng nhất dùng nguyên tắc này là Google.

1.2. Meta-search engine:

Ngày nay, người ta còn lợi dụng các search engine sẵn có để thiết kế thành một loại search engine mới gọi là meta-search engine dịch theo tiếng Việt có nghĩa là máy truy tìm ảo. Nguyên tắc của loại search engine này rất đơn giản, nó không có cơ sở dữ liệu, vì thế khi chúng ta yêu cầu nó tìm thông tin, nó sẽ gởi từ khoá mà chúng ta cung cấp đến các search engine khác một cách đồng loạt. Các kết quả do các search engine tìm hộ này sẽ được nó phân tích, sắp xếp lại sau đó cho chúng ta xem. Ưu điểm của loại máy tìm kiếm này là lợi dụng cơ sở dữ liệu của các spider để tìm ra nhiều kết quả hơn. Ví dụ điển hình của loại search engine này là cỗ máy truy tìm Metacrawler.

1.3. Hierarchical search engine:

Máy truy tìm theo phân lớp, hierarchical search engine, các cỗ máy này sẽ phân lớp sẵn các đối tượng vào các thư mục và người dùng sẽ rẽ nhánh từ từ cho đến khi tìm ra các trang web mà mình muốn. Điều này tiện cho người truy cập nhưng điểm yếu của loại search engine này là không thể bao gồm hết mọi chủ đề mà người dùng muốn kiếm. Hơn nữa, sự phân loại đôi khi không đầy đủ và chính xác. Điển hình của loại máy truy tìm này là Yahoo.

2. Tìm hiểu về Google:

2.1. Giới thiệu về Google:

1995, cùng chung mục đích “làm thế nào để tìm thông tin trên Internet nhanh nhất và chính xác nhất”, Larry Page sinh viên trường đại học Michigan và Sergey Bin sinh viên trường đại học Standford, đã cùng nhau nghiên cứu và viết nên bản luận văn “Công cụ tìm kiếm quy mô lớn trên web sử dụng ngôn ngữ siêu văn bản” do hai người cùng đứng tên vào năm 1997 đã khai sinh ra Google, trang web tìm kiếm nổi tiếng nhất hiện nay.

Sử dụng một số thuật toán phức tạp, Page và Brin đã tìm ra cách tạo chỉ mục và xếp hạng các trang web theo trật tự về số lượt truy cập rồi cung cấp kết quả theo trật tự đó. Tự tin về khả năng thành công của ý tưởng, hai người đã bỏ học để thành lập công ty.
Cái tên Google đặt cho dịch vụ này là một từ chơi chữ dựa vào từ “googol”, có nghĩa là con số gồm số 1 vào 100 con số 0 đứng đằng sau. Tên Google phản ánh ý muốn sắp xếp tổ chức khả năng tìm kiếm thông tin từ hàng tỉ, tỉ trang web đang tồn tại.

1998, họ được Andy Bechtolsheim, một trong những sáng lập viên Hãng Sun Microsystems, ký ngay một tấm ngân phiếu 100.000 USD cho Công ty Google.
Công ty được thành lập vào ngày 7-9-1998 và chỉ trong một thời gian ngắn Google đã trở thành trang web tìm kiếm thông tin được ưa chuộng nhất. Hằng ngày có khoảng 200 triệu lượt người dùng Google để tìm thông tin; còn Google đã sắp xếp làm bản chỉ mục cho 3 tỉ trang web – một con số khổng lồ.

Hiện nay Google có khoảng 10.000 máy chủ, 1.000 nhân viên, trong đó có hơn 60 người có bằng tiến sĩ mặc dù cả Larry và Sergey vẫn chưa hoàn thành luận án của mình. Google có tham vọng thâm nhập thị trường của các nước trên thế giới nên đã đưa ra hàng chục trang Google với hàng chục thứ tiếng khác nhau, trong đó có cả tiếng Việt.
Ngoài lý do hiệu quả, thành công của Google còn nhờ vào quan niệm rạch ròi của hai chàng sinh viên sáng lập: xem phục vụ người sử dụng là mục tiêu quan trọng nhất. Google là trang web tìm kiếm có hình thức đơn giản nhất, nhanh nhất và không lồng quảng cáo vào kết quả tìm kiếm. Cho đến nay Google đã trở thành một động từ trong tiếng Anh, nhiều người không thể hình dung nổi cuộc sống sẽ ra sao nếu thiếu công cụ tìm kiếm này.

2.2.Cách sử dụng Google đơn giản nhất:

Để sử dụng Google, máy tính của bạn chỉ cần có một trình duyệt web như Internet Explorer, Mozilla Firefox, Google Chrome, Opera … và kết nối Internet. Tại thanh Address gõ google.com.

2.3. Các phép toán đơn giản thông dụng trong Google:

2.3.1: Phép toán “+”

Khi bạn muốn tìm các trang có mặt tất cả các chữ mà bạn muốn không theo thứ tự thì hãy viết nối các chữ này với nhau bởi dấu ‘+’ , giữa các chữ phải có khoảng trắng.

Ví dụ muốn tìm các trang nói về cách thức viết Linux scrips bạn có thể điền vào ô tìm bộ từ khoá Linux +script +tutor

Làm vậy thì chỉ có những trang nào có đủ các chữ đã nêu mới được tìm ra. Bằng cách này bạn có thể lọc bớt được một số lượng lớn các trang không cần tìm.

2.3.2. Phép toán “-“

Nhiều lúc bạn muốn tìm các trang chứa thông tin mình cần nhưng cũng muốn loại bỏ một số thông tin không cần thiết hoặc không muốn có thì dùng dấu ‘–’.

VD: “Corel Draw” -10 :tìm kiếm thông tin liên quan đến Corel nhưng không tìm thông tin về Corel 10.

2.3.3. Dùng dấu ngoặc kép ” ” để tìm cụm từ trong nguyên văn

Nhiều khi bạn muốn tìm bài viết nguyên văn cuả một câu nói, tên cuả một người hay một bộ cụm từ thì có thể để tất cả vào trong ngoặc kép. Phương pháp này rất tiện lợi cho việc tìm kiếm những trang đặc biệt.

Ví dụ đánh nguyên văn một câu thơ “Quả cau nho nhỏ miếng trầu ôi” vào Google để tìm xem ai đã viết câu này.

Lưu ý: Phương pháp này sẽ rất hiệu quả trong trường hợp bạn gõ đúng chính tả còn như đánh sai chính tả thì … không còn gì để nói.

2.4. Sử dụng các phép toán Boolean:

Các mệnh lệnh truy tìm dùng đại số boolean đã được phát triển từ nhiều năm. Mặc dù vậy, chúng khó sử dụng so với trình độ người dùng trung bình. Tuy nhiên đừng quá lo lắng, hầu hết các trường hợp thì bạn cũng có thể tìm ra những gì cần mà không phải xài tới chúng.

Các phép toán boolean thông dụng bao gồm OR, AND và NEAR.

Lưu ý: khi dùng mệnh lệnh Boolean thì các toán tử phải viết bằng chữ hoa.

2.4.1. Phép OR

Lệnh này cho phép tìm những trang WEB nào có mặt 1 trong các thành tố (hay còn gọi là toán tử cuả phép toán OR) cuả bộ từ khoá.

Ví dụ để tìm các bài viết về Nguyễn Trãi cho cả tiếng việt và tiếng nước ngoài thì bạn có thể gõ như sau: “Nguyễn Trãi” OR “Nguyen Trai”

2.4.2. Phép AND

Phép toán AND nhằm yêu cầu search engine truy tìm các trang có sự hiện diện cuả tất cả thành tố.

Ví dụ: “nam” AND “nữ” sẽ truy tìm các trang có chữ “nam” và chữ “nữ”.

Mặc định google có chứa toán tử “AND”, nghĩa là nếu bạn không thay đổi từ khóa thì Google sẽ tìm kiếm và đánh đấu tất cả những trang chứa từ khóa sau đó trả về trang kết quả.

Ví dụ : Nhập chuỗi Pascal ebook, trang kết quả sẽ trả về tất cả những trang chứa đồng thời chữ “Pascal” và “ebook”.

2.4.3. Phép NEAR

Dùng để truy tìm những trang WEB có các thành tố của từ khoá nằm gần nhau. Phép toán này rất có lợi để tìm ra những trang có một cụm từ, một khái niệm, một định nghĩa hay một lời phát biểu mà bạn không nhớ hết được nguyên văn.

Ví dụ: Tìm lại nguyên văn câu thơ và tác giả bằng bộ từ khoá: “Nước đi” NEAR “thề non”

2.4.4. Chẻ nhánh bằng phép ( )

Dùng ngoặc đơn cho phép ta tìm nhiều kết hợp phức tạp.

Ví dụ: khởi động (CD OR CD-ROM) (cách tạo)

3. Tìm kiếm nâng cao:

3.1. Intitle:

Tìm kiếm dựa theo tiêu đề của trang web.

Ví dụ: nếu bạn muốn kiếm một ít sách về java, bạn gõ vào google dòng intitle:“Java ebook”, kết quả sẽ đưa về các trang web có tiêu đề Java ebook.

Lưu ý: Tiêu đề luôn phản ánh nội dung của trang web. Vì vậy search với tiêu đề sẽ hiệu quả hơn rất nhiều so với cách tìm với từ khoá đơn giản. Theo mặc định google sẽ đánh giá nội dung trang web, do đó nếu tìm theo tựa đề, thông tin sẽ không cô đọng hơn so với tìm theo từ khoá bình thường.

3.2. Inurl:

Hạn chế kết quả tìm kiếm trong urls.

Ví dụ: Bạn nhập dòng inurl:java world thì kết quả trả về là http://www.javaworld.com. Đây là một từ khoá bạn nên dùng nếu bạn nhớ “mang máng” một địa chỉ trang web nào đó và muốn tìm lại

3.3. Inanchor:

Tìm kiếm dựa vào phần văn bản chứa liên kết.

Ví dụ: Bạn nhập vào inanchor : O’Reilly and Associates thì kết quả sẽ tham chiếu đến <a href=”http://www.oreilly.com>O’Reilly and Associates</a>

3.4. Filetype:

Tìm kiếm theo tên mở rộng file (loại tập tin).

Ví dụ: Bạn muốn tìm kiếm một vài sách điện tử Java theo loại file mà máy bạn có thể đọc được, điều bạn cần làm là chỉ ra phần mở rộng của tập tin cho Google tìm.

Nhập vào Google chuỗi sau : Java ebook filetype:chm (chm là chuẩn file help của Microsoft và thường được dùng để làm ebook do tính tiện lợi của nó) hoặc java ebook filetype:pdf (pdf là chuẩn file khá thông dụng được dùng làm ebook).

Lưu ý: Google hỗ trợ truy tìm tập tin với nhiều định dạng như PDF, Word (.doc), Excel (.xls), PownPoint (.ppt), Rich Text Format (.rtf), PostScript (.ps), text (.txt), HTML (.html / .htm), Corel WordPerfect (.wpd)…

Lưu ý: Google cung cấp tính năng cho người dùng xem thông tin trên trang kết quả tìm kiếm bất chấp máy người dùng không có cài đặt ứng dụng riêng để xem các file này, thông qua liên kết “View as HTML” ngay cuối dòng chữ hiển thị định dạng tập tin trên trang kết quả. Theo Google, điều này giúp người dùng tránh hiểm hoạ có virus tiềm ẩn có thể có trong các tập tin này.

Lưu ý: Dưới “con mắt” cuả các máy truy tìm thì các tệp có đuôi .htm khác với các tệp có đuôi .html. Dó đó, nếu muốn tìm một cách chắc chắc tất cả các tệp dạng HTML thì nên tìm làm hai lần một riêng cho htm và một cho html.

3.5. Cache:

Xem thông tin của trang web chứa trong cache của Google.

Đây là một tính năng rất hay của Google, mặc dù trang web bạn muốn xem đã xoá sổ không còn hiện hữu trên Internet nữa nhưng Google vẫn lưu lại rất nhiều thông tin của nó trong cơ sở dữ liệu, và trong thời gian các thông tin này còn chưa bị xoá khỏi Google thì ta vẫn có thể đọc được nó.

Ví dụ: cache:tuoitre.vn

Lưu ý: Để giảm dung lượng của nội dung các trang web trong cache, Google chỉ chứa thông tin văn bản mà không chứa hình ảnh, và khi chúng ta xem, Google sẽ tải các hình ảnh trên các trang web đó từ nơi sinh ra chúng vì vậy nếu các trang web này bị xoá, các bạn chỉ còn thấy chữ mà không thấy hình ảnh.

3.6. Define

Nhiều khi chúng ta cần biết ý nghĩa, khái niệm của một từ chuyên môn nào đó, ta có thể dùng từ khoá đặc biệt của Google là define. Đơn giản bạn chỉ việc nhập “define” sau đó cách ra một khoảng trắng và nhập một từ hay một cụm từ mà bạn muốn xem định nghĩa nó.

Vd: define linux

Lưu ý: Bạn có thể tìm thấy danh sách các định nghĩa (a list of definitions) bằng cách ngăn cách giữa từ khoá đặc biệt define và cụm từ cần định nghĩa bằng một dấu hai chấm (colon).

Vd: define:linux

3.7. Site:

Khi bạn nhập từ khoá site theo sau là dấu hai chấm và tên site, Google sẽ tìm thông tin bạn muốn hạn chế chỉ trong phạm vi site đó mà thôi.

Ví dụ, để tìm thông tin liên quan đến Windows Vista trên website của báo Tuổi trẻ ta nhập bộ từ khoá “Windows Vista” site:www.tuoitre.vn

4. Những kỹ năng cần thiết trong việc tìm kiếm thông tin:

4.1. Sử dụng đúng chỗ các máy truy tìm

Tuy Google là một cỗ máy truy tìm nổi tiếng, nhưng nó cũng có điểm yếu, điểm mạnh của nó. Tuỳ theo mục đích, nội dung của thông tin tìm kiếm mà bạn nên lựa chọn trang truy tìm cho thích hợp như Yahoo chẳng hạn chứ không nhất thiết cứ là anh Google.

4.2. Lựa chọn từ khoá

Thông thường chúng ta cứ nghĩ nếu muốn tìm thông tin gì thì cứ việc kết nối Internet, mở trình duyệt (browser) vào trang tìm kiếm và gõ vào từ khoá liên quan đến thông tin mình tìm và cứ việc ngồi rung đùi chờ kết quả trả về. Thực tế không đơn giản như vậy, như đã nói ở trên với việc thông tin bùng nổ hiện nay, kết quả cho từ khoá mà bạn gõ vào là số lượng trang thường rất nhiều thậm chí đến mấy ngàn trang, thì làm sao biết trang nào cần mà mở ra (mở hết chắc chết … mà mở đại ngẫu nhiên thì chưa chắc có được thông tin mình cần). Và có lúc ta gõ vào lại nhận kết quả quá ít thậm chí không có kết quả nào.Do đó cần xem xét và lựa chọn từ khoá cho kết quả trả về tương đối chính xác và hạn chế phạm vi tìm kiếm.

Để làm được điều này bạn cần đáp ứng một số yêu cầu sau:

  • Vốn sinh ngữ: nếu bạn chỉ mỗi ngôn ngữ mẹ đẻ thì bạn sẽ gặp trở ngại lớn. Đa số các trang web sẽ thông tin bằng ngôn ngữ riêng và có thể trình bày thêm một ngôn ngữ tiếng Anh, như vậy việc có thêm một ngôn ngữ khác là điều khó tránh khỏi nhất là tiếng Anh, vì khi bạn gõ từ khoá bằng tiếng Anh xác xuất tìm ra sẽ lớn nhất.
  • Kiến thức tối thiểu về thông tin mà mình đang tìm
  • Sự kiên trì: nếu bạn gõ vào từ khoá và kết quả trả về quá nhiều hay không như ý thì bạn nên xem lại từ khóa đó có chính xác không (có cần thêm hay bớt chữ nào, đúng chính tả không)
  • Từ điển: nhiều khi chúng ta tìm không thấy, hay không chính xác do từ ta gõ quá chung chung hay quá ư nhiều nghĩa (ambiguous). Dùng từ điển hay sách tra cứu để kiếm ra chữ khác đặc biệt, sát với thông tin mình tìm và không chứa nhiều ý nghĩa khác, hay là tìm kiếm từ khoá theo chuyên môn của ngành đó như Tin học, điện tử… nếu có.

Lưu ý: Khi bạn gõ từ khoá tiếng Anh, trạng từ hay liên từ mà không đứng trong dấu ngoặc kép “ ” thường bị Google và các cỗ máy tìm kiếm khác bỏ qua không xét, chúng ta muốn Google kiếm thì cần để chúng trong dấu ngoặc kép “ ”.

Tham khảo: Kỹ thuật tìm kiếm thông tin với Google – ĐH Sư Pham TP.HCM