专栏文章
新闻特征向量的建立
科技·工程参与者 1已保存评论 0
文章操作
快速查看文章及其快照的属性,并进行相关操作。
- 当前评论
- 0 条
- 当前快照
- 1 份
- 快照标识符
- @miqv8gnk
- 此快照首次捕获于
- 2025/12/04 11:17 3 个月前
- 此快照最后确认于
- 2025/12/04 11:17 3 个月前
特征向量的建立
为了做这件事,我们要弄清一个现实:
- 计算机这玩意唯一能做的事是超高速计算,他读不懂我们的文字,不能像我们一样对新闻进行文学分析,更不能弄明白新闻在讲什么。
那我们要怎么办呢。。。
计算机只能“算”新闻而没法“读”新闻,所以要先把一篇篇“新闻”量化成计算机看得懂的『数据』,再用我们提到的算法来搞清楚他们的相似度如何。
于是问题的关键变成了怎么用一组数据描述一则新闻。
先看看新闻这种文学体裁有什么特点。
- 这东西主体性超级强,不同的新闻主题对应不同的信息。
- 描述信息需要『词』,不同主题对应不同领域的词。
这么来看,不同主题的新闻用词应该不太一样。
比如说,题为『黑神话入选时代杂志最佳游戏』(这事是真的) 的新闻中,出现『GDP』、『民意』、『戒严』、『在野党』是几乎不可能的,而题为『尹锡悦支持率降至13%』(这也是真的2333) 的新闻,出现『中华文化』、『西游记』、『文化输出』、『国产3A』也很不可能。
那就好办了。
一个最朴素的想法是把新闻中每一个“词”的词频统计出来,然后每个词对应一个数,所有数用一个向量打包,就可以算了。
事实上呢?前辈们确实是这么办的。很酷。
怎么统计词频
我们有必要新来一篇文章了。这里
相关推荐
评论
共 0 条评论,欢迎与作者交流。
正在加载评论...