ホームページを開き直す

検索入門 =ホームページの探し方=

1.始めに

2.基礎知識として HTML URL

3.検索エンジンの種類

4.グーグルで探す

5.GOOGLE検索の基本

6.キーワードと絞り込み

7.ヒットしたら

8.どちらが正しい?

9.スパムデキシング

10.グーグルは万能か


1.始めに

インターネットにあるホームページは宝庫です。このアドレス(URL)だとわかっていれば簡単
なのですが、どこかにあるはずだと探し始めると大仕事です。
ホームページは時々刻々、増え続け変化し続けているので、内容は開いてみないと誰にもわかりま
せん。「こういう事柄に関するホームページは?」に答えてくれる検索サイトの力を借りて探すこ
とになります。
ここでは、検索でよく使われる GOOGLE グーグルを主に取り上げて探し方の基本をまとめました。
以下、具体的な例を上げる場合、特に断らなければグーグルについてです。
主に参考にしたのは
 ・関祐司氏講演会 「インターネット検索のノウハウ」  2004/3/14
 ・「インターネット最強の検索術」 関祐司著 リブロス  2000/12
 ・「Googleポケットガイド」 山名早人訳 オーム社 2003/10
 ・「Googleに聞け!」 安藤進著 丸善        2004/4
 ・「情報の科学と技術」2004−2 情報科学技術協会   2004/2
最初に戻る

2.基礎知識として HTML URL

最初に、ホームページを書くHTML文法についてごく簡単に説明します。
基本は文字(というか文章)です。写真やイラストを入れたり、クリックすると別のページに飛ん
だり、CGIだJAVAだスタイルシートだといろいろありますが、説明を始めると分厚い本にな
るので、とにかく基本だけ。

  イ ※ ※には適当な文字が入ります。
  ロ 今は、html(小文字)でもHTML(大文字)でも問題ないし、私の慣れもあってここの例で
    は大文字にしていますが、新しい規格では小文字に統一することになっています。
  ハ 見やすいように適当に行を替えていますがつなげて一行にしても同じ意味になります。
    余談ですが、ワープロに慣れた方がHTMLで書いたとき、最初に引っかかるのが「意図し
    たとうりに改行させるにはどうするか」ではないでしょうか。
    携帯のような小さいサイズでも収まるように、ブラウザの都合に合わせて改行されるた
    め、勝手がちがいます。HTMLのソースで改行しても、特にタグで指定しない限り、全部
    つなげて表示します。

HTML文書はヘッダとボディに分かれます。

−−−− 例 ここから −−−−
<HTML>

<HEAD>    <TITLE>※タイトルの部分※</TITLE>
</HEAD>

<BODY>
※ここに書いた文章はそのまま表示される※
</BODY>

</HTML>
−−−− 例 ここまで −−−−

上記のような、<HTML>タグで始まり</HTML>タグで終わるHTML文書をブラウザで見ると
<BODY>と</BODY>の間に書いた文章が表示されます。
文章の一部を大きく表示するには、<H1>大きい</H1> などとします。
  本来のタグの目的とは違うのですが、説明をごく簡単にするため。
いろんなタグを使って表現する訳です。
<HEAD></HEAD>で囲まれたヘッダ部には、表示はされないがこの文書全体に関わることを書きます。
<TITLE></TITLE>で囲まれたタイトル部は、ブラウザの一番上のタイトルバーに表示されます。

 ホームページを作るソフトには、ホームページビルダやドリームウィーバなどがありますが、こ
ういったタグを付け加えてHTML文書にしているので、単純にテキスト・ファイルを作るエディタ
(たとえばメモ帳)で書くこともできます。
上記の専用ソフトでは、切り替えると直接HTMLの形を見ることが出来ます。またブラウザでもHTML
の形を見るようにに切り替えることが出来ます。

URLは、国際的に取り決めのあるホームページのアドレス(の表現方法)です。たとえば日本国
首相官邸のホームページのアドレスは http://www.kantei.go.jp
ドットで区切りますが、一番最後は JP 日本 UK 英国 などと国を表します。国の前は団体の
区別で、日本の営利団体なら CO.JP 日本の政府なら GO.JP です。
米国はインターネット発祥の地として国別は省略されるのが普通で、会社なら単に COM ですが、
国外から頼んで COM  をもらうことも出来るので、日本の会社の場合 CO.JP と COM の二種類
あります。

最初に戻る

3.検索エンジンの種類

・ディレクトリ型(登録型)−−本で言うと目次に当たります。

サイト単位で、申請して登録してもらいます。 ヤフー   が代表的です。
サイトのタイトルとサマリー(申請時の要約文)が検索の対象となります。
大分類−>中分類−>小分類 とたどってゆくので、うまくキーワードを使うとぴたりと的中しま
すが、下手するとゴールにたどりつきません。
人が判断して登録するので、データはそれほど多くありません。YAHOO日本で現在約30万サイト
登録されていますが、分類に選ばれていないキーワードの場合、従来はグーグルによる検索結果を
表示しましたが、2004年6月から独自の検索エンジンになりました。
「このサイトはどういう分類に属し、良いサイトか」を人が判断するので登録数は少ないですが、
「選ばれた内容」になります。
ただ、どの分類か決めにくいサイトは
  個人のページによくある、専門的な内容の他、趣味とか、地域に関することとかが混在して
  いる
申請してもなかなか登録してもらえないようです。
子供向けの検索サイト、たとえば  YAHOO!きっず  は登録型で作られています。
たしかに精選された内容ですが、小学3〜4年以上の調べ物だと、これだけでは不足で、やはり
(何でも入っている)普通の検索サイトに行く必要も出てくるようです。

・ロボット型(全文検索)−−本で言うと索引に当たります。

ページ単位で、サイトのタイトルとページの文章全体が対象になります。ロボット(自動巡回プロ
グラム)を使って収集します。登録申請を受け付けることもありますが、基本として
  種になるサイトからリンクしているサイトへ飛び、更にそこにリンクしているサイトへ...
と探します
GOOGLE  では現在42億ページのデータがあり、その半数は英語のページ、日本語のページは
約1億です。
専門的な特殊なキーワードでも引っかかりますが、その代わり山のようにヒットするので、検索す
るキーワードを精選したり、検索結果をよく吟味しなければなりません。この辺はあとで。

最初に戻る

4.グーグルで探す

グーグル  のサイトにアクセスし、ページの中程にある窓にキーワードを入れて
「GOOGLE検索」をクリックします。
解りきったことを何を今更、と叱られそうですが、ブラウザのURLを入れるところにキーワード
を入れたりする方も居るようで、最近のブラウザでは、ある程度の検索をして答えを返すのがあり
ますが、もちろんこれは「ある程度の答え」でしかありません。
更に余談ですが、URLは  HTTP://なんとかかんとか ですが、頭のHTTP://は決まり文句だから、
省いてもブラウザが気を利かせて補ってくれるので大抵うまく行きます。ただHTTP以外のプロトコ
ルもありますし、手抜きせず必ず付ける習慣を付けた方が良いでしょう。
  これは自分自身に言い聞かせている

キーワードを入れた時点で、ネットワークから探し始めるのではありません。そんなことをしてい
たら0.何秒で答えを出すことは不可能です。
ロボット型ではズラリと並んだパソコンが、一斉にネットにアクセスしてデータを集めます。
一回りするのに一ヶ月かかります。更に一ヶ月かけて整理して問い合わせに答えるためのデータベ
ースを作ります。つまり二ヶ月前の内容に基づいて答えてくれることになりますが、日々書き換え
られるサイトにたいしては頻繁に見に行きます。「天気予報」とか「朝日新聞」で出てくる上位の
サイトがこれに当たります。検索結果に日付のあるのが毎日見に行くデータだそうですが、そうと
も言い切れないようです。
標準的には2ヶ月前の内容に基づいた検索結果を返事してくれます。その間には内容が変わったり、
サイトそのものが無くなったりすることもありますが、ロボットが訪問した時点での内容が
キャッシュに保存してあります。

多くのサイトが検索に引っかかります。順位を付けて、上位10件から順に10件づつ表示します。
大抵、最初のサイトだけみるか、せいぜい最初の10件だけみて検索を終わりにするでしょう。
なるべく若い順位にはいらないと、せっかく検索されてもあまり見てくれません。
グーグルは、この順位(ページランク)を自動的に計算する仕組みを研究したスタンフォード大学
博士課程の二人の学生が1998年に創業し、日本には2000年9月に上陸しました。
順位付けの方式が優秀で、目的のサイトが上位にくる率が多いと一番人気になりました。
ページランクは一口にいうと「良いサイトからリンクしているサイトはやはり良いサイト」と
言った感じです。理論に興味のあるかたは馬場さんによる解説をご覧ください。

最初に戻る

5.GOOGLE検索の基本

グーグル  の最初のページの、「GOOGLEについて」の「ヘルプと検索方法の基本」に説明してありま
すからぜひ目を通してください。
いろいろオプションが付けられます。記号を付けてキーワードと一緒の窓に入力する方式で説明し
ますが、窓の右の「検索オプション」を開いても同じことが出来ます。
「ウエブ」でテキスト中のキーワードを探します。普通はこちらですね。
「イメージ」で、キーワードに関する画像を探します。

キーワードをスペースで区切って複数個(10個まで)入れるやり方がAND検索 で、それらを
すべて含んだページを検索しますが、
   [例] 温泉 群馬 犬連れ
そのほか
OR検索  指定したキーワードのどれかを含むページ。OR ( ) は半角大文字
   [例] ( 軍艦 OR 戦艦 )
除外    検索したなかから除く。- は半角。
   [例] ベビー用品 市場 -楽天
などもあります。
  -楽天 を入れた場合、入れなかった場合について比較してみてください。
フレーズ検索 ワイルドカード ストップワードなどについてはヘルプを参照してください。

検索結果の一覧がでたら、すぐ一番目のサイトへ飛びたくなりますが、それぞれの概要の最後にあ
るキャッシュに注目してください。
検索されたキーワードがどこにあるか、どのように分解したか、を強調表示してくれます
グーグルをふくめ、大抵の検索エンジンはキーワードを自動的に(勝手に)単語に分解しています。
英語なら、文章は最初から単語毎に区切って表記しますが、日本語では普通分かち書きをしません
ので、どこで単語として区切るか(形態素分析)が悩ましい問題です。
「農林2号」(作物の品種)は「農林」「2」「号」に分解されるので、まるで関係ないサイトも
引っかかります。
Nグラム方式(文字単位の分割)で、こういう場合GOOGLEより適切な結果を返してくれる検索サイ
トがあったのですが、残念ながら某IT大手に吸収されて独自性がなくなりました。

最初に戻る

6.キーワードと絞り込み

どんなキーワードで探すか、が問題です。
技術的・専門的な情報を得たい場合は「プロが使っている用語」で検索するのが一番です。とりあ
えず自分の知っている言葉で検索してみて、探している内容に近そうなサイトで、どんな言い方を
しているか
  たとえば 携帯 より 移動体通信 のほうが専門語に近い
を探す手もありますし、ネットにある「シソーラス辞書」のサイトで探すのも良いでしょう。
 
そのページに必ずあるはずの言葉で探す手があります。東京都内の税務署の住所一覧は、
  [例]都内 税務署 住所 一覧 ではなく[例] 税務署 日比谷区 練馬区 大田区 町
とします。
 [例]土木技術者  当社規定により優遇
でどんなサイトがひっかかると思いますか。

キーワードの他に付加コマンドを付けられます。

URL指定
  [例]環境 大気 site:go.jp   日本の政府機関のサイトから検索
  [例]環境 大気 site:ac.jp   日本の大学・研究機関のサイトから検索

ファイル形式指定
  [例]人口 熊谷 本庄 filetype:xls    エクセルのデータが出てくる。
     データを見るだけでなく、パソコンで何らかの加工をする場合、大変便利。
  [例]ペーパークラフト filetype:pdf    アクロバット文書は画面表示と印刷の仕上がり
     が一致する。
  [例]始末書 filetype:doc     しまった!というときのために。ワード文書の見本が
     出るので一寸手直ししてそのまま提出...

タイトル指定
  [例]allintitle:翻訳 ツール  ネットにはいろんな辞書があります。

そのほか  [例]define:SEO        SEOってなんだ?

などなど

最初に戻る

7.ヒットしたら

検索して出たページがすべてではありません。そのサイトのトップページに戻って、全体を見直す
と有益な情報が得られることがあります。
大きなページで、どの部分にキーワードがあるのか探しにくい場合はブラウザの機能で「ページ内
検索」が出来ます。
大型のサイトでは「サイト内検索」を備えているのもありますし、「サイトマップ」で全体を簡単
に見渡せるようにしてあることもあります。

「リンク集」もひととおり見てください。関連したサイトをたどってゆくと、面白い情報が見つか
ります。
  面白すぎて、ついつい「何を調べていたか忘れる」ことがあります。

インターネットは世界につながっています。専門的な情報の場合、正確な英語のスペルが解ったら
英語のサイトにチャレンジしましょう。はるかに多くの情報を得ることが出来ます。
翻訳サービスのサイトもあることですし。

最初に戻る

8.どちらが正しい?

先日、ひょんなことからクラシック音楽のCDを自主製作し、そのライナーノートを書きましたら、
印刷デザイナーからダメが出ました。「スタインウエイ じゃなくて スタンウエイ ではないか」
「スタンウエイのほうがヒット数が多い」「子供のころからそう言っていた」
  この方の実家は、地元の大きな楽器屋さん。あ、スタインウエイはピアノのメーカーです。
早速ググって見ました。たしかに両方ともあるのですが
 ・スタインウエイ  クラシック系のサイトが多い。総代理店の日本スタインウエイもこちら。
 ・スタンウエイ   個人のサイト、ポピュラー系が多い。
ということで、原稿どうりスタインウエイにしてもらいました。

インターネットの情報でも、すべてが正しい訳ではありません。正しい、正しくないといった2極
にわけられないこともあります。情報の受け手である私たちが、発信元や内容から判断すべきこと
だと思います。「検索してヒット数の多い方が正しい」というのも内容によりけりです。

最初に戻る

9.スパムデキシング

個人が趣味で作ったサイトでも、検索で上位に入ると気持ちが良いです。まして、会社が営業活動
のために作ったサイトが上位に入るかどうかは、直接お金儲けに関係します。
だれもが、ランキングの上位に出てほしいのです。

郵便が配りやすいように、各家の決まった場所に規格型の郵便受けを置き、住所と家族全員の名前
を明記する、などは奨励すべきルールでしょう。ホームページの書き方でもそういうルールはある
のですが
  一例を挙げると、タイトルは内容を適切に代表したものにする
なかには他人を押しのけて、平たく言うと検索サイトをだまして、一つでも上に出ようという行為
があり、スパムデキシングといいます。そういうことを仕事にする会社まであります。
「こういう具合に作ると検索されやすいです」という真っ当な技術指導・解析から、なにがなんで
というガラの悪いのまでいろいろあるのです。
別に犯罪ではありませんが、おかしなのが上位にくると検索サイトの評判を落とすので、なるべく
対策されます。たとえば
  [例]単語を拾うのだから、検索されそうな単語を(内容に関係なく)いっぱい書き込んで
     おく。見る人に気づかれないように、見にくい色、ごく小さい文字で。
  [例]リンクを重視するのだから、その会社をヨイショするごますりサイトをいっぱい作り
     一斉に親のサイトにリンクする。

いずれも最初は効果ありますが、検索サイトのほうでも対策をとっています。なんだか矛盾の語源
を思い出しました。

最初に戻る

10.グーグルは万能か

検索ロボットは、リンクをたよりに探し回るので、どこからもリンクされていないサイトは永久に
引っかかりません。
オンライン辞書という便利なものがあります。たとえば アルク
ユーザー側が知りたい単語を入れると答えが返ってきますが、ユーザ毎に違うことを聞きますから、
(動的ページ)その内容は検索エンジンでは引っかかりません。
このように、原理上現在の検索エンジンでは引っかからないサイトがあって、何かを調べるとき、
そういったサイトをどれだけ知っているかが大切です。たとえば The Invisible Web Directory
以上は、検索エンジン全般の話。

グーグルについていうと、確かにすばらしいサイトで一人勝ちというのも頷けるのですが、やはり
心得ておくべきことがあります。
まず、形態素分析型の検索であるということ。たしかに多くの検索エンジンがこの方式なのですが、
上に述べたようにこの方式でない少数派の方が有利な場合もあります。
さらに何でもグーグルで、どんどん大きくなり、巨大なデータを抱えていますが、必ずしも大きい
ことが良いことでなく、あることに特化した検索サイトが出てくるかも知れません。

グーグルの人気は、ページランクという順位付け方式によって、「目的のサイトが上位に出てくる
確率が多い」ことによりますが、この先さらに効率の良い順位付け方式が出てくるかも知れません。
新しい方式が必ずしもすべての分野でグーグルを追い抜か無くても、ある分野だけでも良いわけで
す。
我々は日本語を使って会話し、記録にとどめ、その中から必要な情報を検索します。
英語から生まれたグーグルは、日本語を扱うようになっていろいろ使いにくい点が見つかり、その
都度対策を取っているようですが、「そもそも日本語とはどんなコトバか」を掘り下げた検索方式
が生まれてほしい、と私はひそかに期待しています。

現在「グーグルでみつからないことはインターネットにないこと」と考える方が多いです。
  白状すると私もほとんどそうです
しかしグーグルは一企業であって、特許庁のデータベースとか、国土地理院の地形図といった「国
民の税金で作成され、ここにないものは世の中に存在しないと信じて良いもの」ではありません。
「その国の法律に違反すると判断すると検索から削除する」そうですが、その判断は裁判の結果と
かでなく社内独自のようです。

最初に戻る