专栏文章

新闻特征向量的建立

科技·工程参与者 1已保存评论 0

文章操作

快速查看文章及其快照的属性,并进行相关操作。

当前评论
0 条
当前快照
1 份
快照标识符
@miqv8gnk
此快照首次捕获于
2025/12/04 11:17
3 个月前
此快照最后确认于
2025/12/04 11:17
3 个月前
查看原文

特征向量的建立

为了做这件事,我们要弄清一个现实:
  • 计算机这玩意唯一能做的事是超高速计算,他读不懂我们的文字,不能像我们一样对新闻进行文学分析,更不能弄明白新闻在讲什么。

那我们要怎么办呢。。。

计算机只能“算”新闻而没法“读”新闻,所以要先把一篇篇“新闻”量化成计算机看得懂的『数据』,再用我们提到的算法来搞清楚他们的相似度如何。
于是问题的关键变成了怎么用一组数据描述一则新闻。
先看看新闻这种文学体裁有什么特点。
  • 这东西主体性超级强,不同的新闻主题对应不同的信息。
  • 描述信息需要『词』,不同主题对应不同领域的词。
这么来看,不同主题的新闻用词应该不太一样。
比如说,题为『黑神话入选时代杂志最佳游戏』(这事是真的) 的新闻中,出现『GDP』、『民意』、『戒严』、『在野党』是几乎不可能的,而题为『尹锡悦支持率降至13%』(这也是真的2333) 的新闻,出现『中华文化』、『西游记』、『文化输出』、『国产3A』也很不可能。
那就好办了。
一个最朴素的想法是把新闻中每一个“词”的词频统计出来,然后每个词对应一个数,所有数用一个向量打包,就可以算了。
事实上呢?前辈们确实是这么办的。很酷。

怎么统计词频

我们有必要新来一篇文章了。这里

评论

0 条评论,欢迎与作者交流。

正在加载评论...