日本では大きいほうだが、GoogleやYahoo、Amazonに比べれば小規模
30万ユーザ、400万セッション/月、1,600万URL/4,700万ブックマーク
->あるテーブルの件数が3億!
ハードウェアリソース
エントリ3.0GB、ブックマーク5.5GB、タグ4.8G、HTML zlib圧縮で200GB
Webサーバー10台、検索70台
コード量
12万ステップ、業務ロジックが45,000ステップ、1200モジュール
人的リソース
9名体制 マネージャ1、エンジニア3+3、デザイナ1+1
各機能の実現方法
・本文テキスト抽出ライブラリ HTML::ExtractContent
本文テキストの判断方法、句読点が多い場合本文の可能性が高い(スコアをあげる)
8,9割は適切に判断。1,2割が失敗
・全文検索機能
全登録文書からの検索にはPFIのSedueを利用
個人の登録ブックマークからは、転置インデックス方式を用いて
N-Gramと形態素解析でヒューリスティックス
Array::Gap、Lux::IO
Naive BaysよりはCompletement Naive Bays
TheSchwartz様サマ
Web+DB Vol.49よろしく
YAPC::Asia 2日目 「はてなブックマークのシステムについて」 - naoyaのはてなダイアリー
30万ユーザ、400万セッション/月、1,600万URL/4,700万ブックマーク
->あるテーブルの件数が3億!
ハードウェアリソース
エントリ3.0GB、ブックマーク5.5GB、タグ4.8G、HTML zlib圧縮で200GB
Webサーバー10台、検索70台
コード量
12万ステップ、業務ロジックが45,000ステップ、1200モジュール
人的リソース
9名体制 マネージャ1、エンジニア3+3、デザイナ1+1
各機能の実現方法
・本文テキスト抽出ライブラリ HTML::ExtractContent
本文テキストの判断方法、句読点が多い場合本文の可能性が高い(スコアをあげる)
8,9割は適切に判断。1,2割が失敗
・全文検索機能
全登録文書からの検索にはPFIのSedueを利用
個人の登録ブックマークからは、転置インデックス方式を用いて
N-Gramと形態素解析でヒューリスティックス
Array::Gap、Lux::IO
Naive BaysよりはCompletement Naive Bays
TheSchwartz様サマ
Web+DB Vol.49よろしく
YAPC::Asia 2日目 「はてなブックマークのシステムについて」 - naoyaのはてなダイアリー
No comments:
Post a Comment