浏览代码

金钱挖掘:完善内容

ChenYL 2 年之前
父节点
当前提交
88953d58c5
共有 1 个文件被更改,包括 72 次插入9 次删除
  1. 72 9
      金钱挖掘.txt

+ 72 - 9
金钱挖掘.txt

@@ -25,7 +25,11 @@
 		
 	过程:信息挖掘(收集) -> 信息筛选(清洗)-> 分析(需要耐心人工完成) -> 使用(创造价值)
 	
-	前提:数据分析的前提是需要有比较充足的数据,这样分析出来的结果才是有效的
+	分析的基本原则:
+		1.数据分析的前提是需要有比较充足的数据,这样分析出来的结果才是有效的
+		2.明确分析目的
+		3.考虑普遍、忽略偶然
+		4.清洗无关数据
 	
 	构建逻辑:
 		基本逻辑:
@@ -75,6 +79,47 @@
 				1.分词时要重视词频文档建立
 				2.分词时要忽略无效词根
 		
+		4.知乎评论挖掘
+			过程:
+				1.从目标话题入手,再根话题下找到精华板块下的文章
+				2.对精华板块下的文章收集评论信息
+				3.对精华板块下的文章作者写的其它相关文章,也能收集评论信息
+			注意:
+				1.可以把这个思想推广到其它地方
+				2.热门(高赞)的文章才能有更多的评论,而话题下的精华是领域里最热门的内容了
+				3.一名经常输出某领域内容的大小V,他也一定会出现在该领域的精华版块里,他还会有更多相关内容
+				
+		5.新词发现技术(需要自己考虑实现)
+			作用:获得一个领域里的特有词根
+			思想:
+				1.根据数据里的文本分布,结合左右邻文本和整体出现频率,用概率的方式计算一段文本是不是一个词汇
+				2.TOP前的词汇一般都是正确的,但是这些词汇是按照概率返回的,不一定是seo领域主要的、常见的。所以我们只需要再根据词频排序(领域常见的词频就比较高)
+				3.词频排序后,可以看到TOP前的大都是seo这个领域常见、重要、主要的词汇,即:这个领域聊来聊去都是在聊这些的词汇,提供的数据越多越丰富,结果越准确
+			适用:适合提取出大词,用于深挖领域长尾词,而新词发现的功能还可以用于其他地方
+			注意:
+				1.单靠想是无法挖出该领域特有的词根的,即使再熟悉也一样
+				
+		6.广告挖掘
+			作用:从网站广告发掘需求或商机
+			过程:
+				1.目标站点收集
+					* 行业工具站点、网赚博客或论坛、网赚论坛/博客、第三方工具平台、PC端小工具站点、源码平台、线报/兼职/任务平台等
+					* 利用5118等关键词工具批量收集与目标站点可能相关的长尾词,将这些长尾词批量拿到百度搜索,搜索结果第一页里经常出现的站点就是我们的目标站点,其他类型站点同理
+				2.站点页面收集:
+					* 通过网站首页的栏目链接找到通向所有页面的url
+					* 把所有站内的链接都爬收集一编
+				3.广告链接收集:不是站内链接基本可认为是广告,然后加上特征判断(集中在某块区域,旁边有“广告”字眼,文本内容经常包含:优惠、特价、联系、以及各种醒目符号等等,又或者是一条细长的横幅图片,gif格式、有闪动效果,旁边同样有广告字眼)
+				4.对步骤3中的结果排除友链
+				5.对获得广告图片内容可以使用OCR图片文本识别转换为文本
+			注意:
+				1.不同类型的网站投放的广告是不同的,需要根据目标灵活收集变通
+				2.网站上除了友链,一般不会放其它网站的链接,除了广告
+		
+		7.用户行为数据挖掘
+			作用:用户行为(浏览、点赞、评论,付费)具有研究价值
+			数据获取平台:贴吧、知道、豆瓣、简书、头条、微博、B站、博客、网课、搜狗微信、分类信息、电商平台
+			过程:根据不同的行为有不同的获取方式,需要自己思考和实现
+		
 	筛选方法:
 		无效词库:存放通用的、与目标必定无关的词,经过比对后进行排除
 		去重:需要把一模一样的词去除
@@ -149,12 +194,24 @@
 			适用范围:
 				1.对于目标领域,直接找长尾词,然后专门看其中的带空格的长尾词
 				2.进一步可以把找到的词放到搜索引擎中搜索,统计空格后面的核心词在搜索结果里的飘红率,飘红率为0或者偏低,可能就是机会
+		
+		用户情感分析
+			作用:提取行业信息和用户槽点
+			方法:使用情感分析工具对用户的评论进行分析
+			适用:
+				1.分析评论中品牌名称的出现次数,就能简单的得出某个收集范围内的品牌热度
+				2.对行业下的品牌,分析正负面占比(正:称赞,负:有槽点)
+				3.对于评论中的负面评论,可以分析其中的高频词汇(负面词汇),进而得知用户比较在意的地方
+				4.提取其中包含疑问、提问的评论,可以统计用户出现最多的问题是什么样的,从而了解用户的大致需求
+			说明:
+				行业信息:可以帮助我们更加深入的了解该行业,在撰写行业相关内容或从事该行业时会有显著帮助。
+				用户槽点:是用户需求里比较重要的一个版块,它代表着用户情绪,毕竟商业这件事更多时候是满足感性需求而非理想需求
 	
 	使用方法:
 		把词汇放入搜索引擎搜索,看看别人通过它们在做什么(核心)
 	
 	词汇体系:
-		疑问词:什么、如何、怎样、怎么、哪有、哪些、哪种、哪里、哪个、哪类、有啥、有没有、有什么、能不能、是不是、怎么样、怎么能、怎么弄、怎么做、怎样能、怎样弄、怎样做、可不可以、需不需要、需要什么
+		疑问词:什么、如何、怎样、怎么、哪有、哪些、哪种、哪里、哪个、哪类、有啥、有没有、有什么、能不能、是不是、怎么样、怎么能、怎么弄、怎么做、怎样能、怎样弄、怎样做、可不可以、需不需要、需要什么、吗、呢、哪、么、几、多少、可能、是否、请问、要不要、”?“、”?“
 		人性懒惰:技巧、方法、诀窍、秘诀、套路、快速、一键、批量、自动、自动化、数字化、数智化
 		求资源:资源描述 + 打包/网盘/云盘/百度云/整部/整套/全本/合集、技巧、全集、套路、百度云、高清、超清、整份、在线、全部、下载、上传
 		情绪词:太慢、老是、总是、经常、常常、一直、频繁、时不时
@@ -216,12 +273,17 @@
 	seo清洗百万长尾词数据的策略.html
 	https://mp.weixin.qq.com/s/wtTMuwCRJ0aoYeLjFfmbgA
 
-学会利用“情感分析”从用户评论里挖掘槽点.html
-https://mp.weixin.qq.com/s/vKlEpJiCe8GLfBgYOj_iMA
-搜一搜SEO选词实操步骤,附提词工具!.html
-从网页的“小广告”中提取出最热门的业务!.html
-https://mp.weixin.qq.com/s/gXMsal3IKBntYTRbWc754A
-从付费行为里给自己找一个兼职当作副业.html
+	学会利用“情感分析”从用户评论里挖掘槽点.html
+	https://mp.weixin.qq.com/s/vKlEpJiCe8GLfBgYOj_iMA
+	
+	搜一搜SEO选词实操步骤,附提词工具!.html
+	https://mp.weixin.qq.com/s/wksTf_ykoZT7HKcC4sHN8Q
+	
+	从网页的“小广告”中提取出最热门的业务!.html
+	https://mp.weixin.qq.com/s/gXMsal3IKBntYTRbWc754A
+
+	从付费行为里给自己找一个兼职当作副业.html
+	
 百度搜索移动端流量词热度统计方法.html
 百度竞价广告:穷尽蓝海流量-收集篇.html
 https://mp.weixin.qq.com/s/zbG_ZEXb69M0mJxo3MxmHw
@@ -232,7 +294,8 @@ https://mp.weixin.qq.com/s/JT-2k2ewtono5gU8wHDBgQ
 SEO采集海量文章,用倒排索引找出_类似的标题.html
 百度竞价:大量挖掘有商业价值的词汇,截流另一片长尾流量!.html
 https://mp.weixin.qq.com/s/ThpgIsUfZ0ruJJb9EPtnDw?poc_token=HP5nmWWj1TRa6DPy6SSlKWq2dg8vhO3jgySZPf68
-
+2021年互联网项目库整理-【可能删】
+https://mp.weixin.qq.com/s?__biz=MzU5OTE2MDM3Ng==&mid=2247485602&idx=1&sn=e73342b8aea5c8d050baddbf394ed3b1&chksm=feb86bf5c9cfe2e3452bfdd8162569a194bc9094102a824dd8a6e87a886f5e0528c531cfbbf9&token=1510432013&lang=zh_CN&scene=21#wechat_redirect