不是故意迫害新浪微博,也不是對新浪微博不滿,在這裡指手畫腳。我是一個過路人,秉承技術學習的態度,來和大家分析新浪微博搜索分詞的不足。
迭詞是非常重要的測試元素,我們以“阿裡巴 巴”作為測試詞匯,去評測效果:
效果是驚人的不令人滿意。那麼真實的測試“阿裡巴巴”效果應該是這樣子的:
可見“阿裡巴 巴”和“阿裡巴巴”這兩個看似相同的詞,但是在新浪微博的搜索中,差異竟然這麼明顯。其原因據我推測是:沒有做全局分詞。例如,“阿裡巴 巴”至少應該分為三個詞組,但是通過觀察,它只用了專業名詞詞庫。阿裡巴巴應該切分的5個詞組“阿裡”,“巴”,“巴”,“巴巴”“阿裡巴巴”。如果沒有這樣做,將會直接導致搜索“阿裡巴 巴”效果非常差,幾乎搜索不到“阿裡巴 巴”相關詞匯。
同理,搜索“阿裡 巴巴”效果也會很差,事實也證明如此:
當然,他們這樣分詞也有自己的道理,那就是用戶給定的空格,那一定是詞與詞的分隔符,或者他們自己分詞用的分隔符就是空格。在以前可以這樣解釋,但是搜索在N年前就進入了語義時代,如果還保留以前思想,那一定會落伍。尤其是:你把這三個case放入到百度、360、搜狗搜索裡面去,他們都能很好處理。讓若你把“QQ”、“Q Q”放入新浪微博搜索,結果會更差。可見新浪微博的搜索非常依賴於詞庫,可是呢,往往是細節決定成敗!
注:相關網站建設技巧閱讀請移步到建站教程頻道。
收藏本文