Forráskód Böngészése

金钱挖掘:完善内容

ChenYL 2 éve
szülő
commit
a153047295
1 módosított fájl, 41 hozzáadás és 5 törlés
  1. 41 5
      金钱挖掘.txt

+ 41 - 5
金钱挖掘.txt

@@ -119,6 +119,38 @@
 			作用:用户行为(浏览、点赞、评论,付费)具有研究价值
 			数据获取平台:贴吧、知道、豆瓣、简书、头条、微博、B站、博客、网课、搜狗微信、分类信息、电商平台
 			过程:根据不同的行为有不同的获取方式,需要自己思考和实现
+			
+		8.百度搜索移动端流量词+热度统计
+			作用:快速挖掘一些热门的有代表性的长尾需求
+			过程:
+				1.选择一个行业主词
+				2.将主词拿到百度移动端(m.baidu.com)里搜索,提取“大家还在搜”这个版块的所有关键词,并去除不包含主词的推荐词
+				3.把步骤2得到的推荐词按格式记录(推荐词,母词)
+				4.把新得到的推荐词加入搜索队列,挨个拿到搜索引擎里搜索获得新推荐词
+				5.重复以上步骤,直到不再看见没有搜索过的新词
+			热度计算:以推荐词为维度,统计出现不同母词出现的次数,即为热度
+			注意:
+				1.虽然是以百度举例,但是可以推广到其它地方
+		
+		9.利用海量文本内容来挖词
+			作用:全面的收集目标领域中的特有关键词
+			原理:利用TF-IDF的思想,收集一批目标领域的文本内容(例如:几万篇以小程序为主题的文章),以及一批非目标领域的随机文本内容(例如:几十万篇新闻文章),利用TF-IDF算法提取目标领域每一篇内容的高权词,再结合无差别领域的内容来抑制常见词的分数,沉淀出来的就是目标领域的相关词汇,以它们作为词缀结合主词根去反复拓词,理论上就能尽可能的把整个领域的词都收集到,收集的内容越多,这种计算就越准确,且能整理的词缀就越全面
+			过程:
+				1.内容收集
+					* 目标领域内容的收集:一些专题论坛、社区、各种垂直自媒体号等,因为特定的关系它们的内容都围绕具体某一领域,包括百度的搜索结果其实也可,例如:知乎里一个问题下的所有答案,同一个话题下的所有问题对应的所有答案,都是讨论同一个领域的(所谓的领域是相对的)
+					* 非目标领域的无差别内容的收集:百度找"新闻语料库",有合适的直接下载,有技术能力也可以自己采集一些自媒体文章,有个一二十万也行,分类随机即可
+				2.计算权重分数,一般权重高的topN词汇就是目标领域特有的词汇
+				3.如果目标想要获得别人找不到的词汇,那么只要先用常规方法获得领域内常见词汇,然后与步骤2中的词汇做差集,这样得到的就是别人没有得到过的词汇了
+				4.最后就可以使用最终得到的领域词来拓词、来寻找领域相关的长尾词了
+			说明:
+				1.文本内容可以是:文章、回答、帖子、新闻等互联网特有形式的文本内容
+				2.TF-IDF算法:是判断文章主题时常见的算法,某篇文章中,高度反复出现的一些词,在其他文章里很少出现,这些词是最能说明文章主题的,在任何文章里总是出现的词汇不助于理解文章,不具备重要性和相关性
+				3.TF-IDF算法缺陷:对于过滤低词频的不相关词汇效果很显著,但是某些常见词比如:"可以",它在某些文章还就总是经常出现,词频很高,再加上非目标领域数据往往不见得全面,有时抑制效果不太好,还需要辅助支撑一下。
+				4.通过TF-IDF算法,不用刻意处理停止词、常见词、无实意词等等,因为随着更多的无差别内容参与计算,大多数无效目标的分数会不断降低
+			注意:
+				1.单纯的靠主词根进行拓展是很难全面收集目标领域中的特有关键词的
+				2.无差别领域的内容可以在不同行业重复利用
+				3.使用该种方法只能尽可能的寻找,无法真正的穷尽
 		
 	筛选方法:
 		无效词库:存放通用的、与目标必定无关的词,经过比对后进行排除
@@ -284,11 +316,15 @@
 
 	从付费行为里给自己找一个兼职当作副业.html
 	
-百度搜索移动端流量词热度统计方法.html
-百度竞价广告:穷尽蓝海流量-收集篇.html
-https://mp.weixin.qq.com/s/zbG_ZEXb69M0mJxo3MxmHw
-百度竞价广告:穷尽蓝海流量-查词篇.html
-https://mp.weixin.qq.com/s/ThEobvU8JxNRJ_9nsoBEtg
+	百度搜索移动端流量词热度统计方法.html
+	https://mp.weixin.qq.com/s/hIFrNOIa4dQzgChBS-MWEA
+	
+	百度竞价广告:穷尽蓝海流量-收集篇.html
+	https://mp.weixin.qq.com/s/zbG_ZEXb69M0mJxo3MxmHw
+	
+	百度竞价广告:穷尽蓝海流量-查词篇.html
+	https://mp.weixin.qq.com/s/ThEobvU8JxNRJ_9nsoBEtg
+	
 几个现学现用的方式:提取用户较为“迫切”的需求!.html
 https://mp.weixin.qq.com/s/JT-2k2ewtono5gU8wHDBgQ
 SEO采集海量文章,用倒排索引找出_类似的标题.html