收集了一批网站的html源码,想对html进行特征提取,或者分类,请问有什么比较好的方法推荐?

  统计/机器学习 深度学习 自然语言处理    浏览次数:1806        分享
0

数据:网页源码

目的:提取特征或者打码分类

 

seven   2020-12-15 17:05



   2个回答 
0

爬虫而来数据? 有具体样例没有

SofaSofa数据科学社区DS面试题库 DS面经

boyang987   2021-03-09 15:56

0

html元数据里一般会有给搜索引擎用的keywords,此外可以在body的标题标签里提取高频的关键词

SofaSofa数据科学社区DS面试题库 DS面经

lingf33   2021-07-27 16:51



  相关讨论

请问汉字CNN识别,怎么做标签呢?

不同mini-batch的LSTM_cell之间的隐藏状态(hidden state)和记忆单元(memory cell)的确定

hidden size

python随机打乱文本

可以把多个文档、段落向量直接加和求平均来获得新的表示向量吗?

text CNN的输入训练样本有什么要求?

nlp里的stemming是什么意思?

文本处理中的tf是什么意思?如何计算?

怎么判断一句中文话语是否通顺

文本处理中stop word什么意思

  随便看看

机器学习中的奥卡姆剃刀原理是什么意思

python sklearn模型中random_state参数的意义

主成分分析法(PCA)算是黑盒算法吗?

推荐系统里的ALS是什么意思?

AIC可以是负数吗?