特征向量的建立

为了做这件事，我们要弄清一个现实：

那我们要怎么办呢。。。

计算机只能“算”新闻而没法“读”新闻，所以要先把一篇篇“新闻”量化成计算机看得懂的『数据』，再用我们提到的算法来搞清楚他们的相似度如何。

于是问题的关键变成了怎么用一组数据描述一则新闻。

先看看新闻这种文学体裁有什么特点。

这么来看，不同主题的新闻用词应该不太一样。

比如说，题为『黑神话入选时代杂志最佳游戏』(这事是真的) 的新闻中，出现『GDP』、『民意』、『戒严』、『在野党』是几乎不可能的，而题为『尹锡悦支持率降至13%』(这也是真的2333) 的新闻，出现『中华文化』、『西游记』、『文化输出』、『国产3A』也很不可能。

那就好办了。

一个最朴素的想法是把新闻中每一个“词”的词频统计出来，然后每个词对应一个数，所有数用一个向量打包，就可以算了。

事实上呢？前辈们确实是这么办的。很酷。

怎么统计词频

我们有必要新来一篇文章了。这里