| 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320 |
- 基本过程:数据(无价值)-> 挖掘(重点、核心) -> 有效数据(有价值)-> 找到既有业务 -> 变现
- 基本思想:
- 1.对于未知的需求,挖掘本身是没有方向的,需要有一套框架体系作为指引
- 2.对于确定的需求,应该有一套确定的挖掘手段
- 3.先找到卖什么,能不能卖、怎么卖是另外考虑的问题。
- 4.必须从人性角度、用户实际需求出发思考
- 5.凡是有引流和投广告的地方,都可能存在商机
- 6.发现一个可能的商机,就要尽可能的了解整个流程,看别人是怎么做的
- 7.挖掘需求,并不一定只是为了找到现成的商业机会或项目,除此之外:引流、内容创作、产品优化,这些事情也都是跟用户需求息息相关的。
- 大批量引流:要知道目标群体想要什么
- 高质量创作:要知道目标群体关注什么
- 准确性优化:要知道目标群体抱怨什么
- 8.联网营销的基础:充分了解用户需求,这起到了导航的作用,一切都以它作为索引
- 框架体系
- 作用:
- 1.作为前进的指引
- 2.数据池是鱼塘,有价值的数据就是鱼,框架体系就是编织渔网的方法和渔网本身,这样才能抓到鱼
-
- 原理:
- 1.“特殊”词汇反映着特定人群的特定需求、特定行为、特定意图
- 2.提问就是产生需求的最直观的体现
- 3.动词代表行为,行为体现动机,动机反映需求
-
- 过程:信息挖掘(收集) -> 信息筛选(清洗)-> 分析(需要耐心人工完成) -> 使用(创造价值)
-
- 分析的基本原则:
- 1.数据分析的前提是需要有比较充足的数据,这样分析出来的结果才是有效的
- 2.明确分析目的
- 3.考虑普遍、忽略偶然
- 4.清洗无关数据
-
- 构建逻辑:
- 基本逻辑:
- 1.从用户的角度思考,遇到需求、问题或者痛点时会用什么词汇搜索
- 2.从服务的提供者角度思考,我能提供服务的那些需求一般会涉及什么词汇
- 3.关键词本身是人的一种表达方式
-
- 符合下列其中之一即为特殊词汇:
- 1.什么词汇能够体现用户的需求、问题或者痛点
- 2.什么词汇在用户的描述中必然出现
- 3.什么词汇能够紧跟时代的发展,能够反映或关联当前的新事物
- 4.提供服务的那些需求一般会涉及什么词汇
-
- 挖掘方法:
- 1.搜索引擎高级搜索指令搜索
- 作用:在指定的范围内搜索指定内容
- 指令:
- intitle:
- 作用:索后的结果标题里必带完整关键词
- 格式:intitle:"待搜索的关键词"
- inurl:
- 作用:搜索后的结果链接里必带完整字符
- 格式:待搜索的关键词 inurl:待搜索范围里的字符
- 说明:可以配合爬虫工具更好实现自动收集
-
- 2.下拉词(下拉框里的词):
- 作用:通过该入口自己能够主动去获取新鲜事物
- 特点:
- 1.时效性(近期)、热度(高频、搜索量),在近期内某些长尾词有了较高频次的搜索就会出现在下拉框里
- 2.相关性,即具有联想功能,能用a-Z、0-9、拼音等字符来带出其他词汇
- 使用:目标主词 + a-Z/0-9/拼音等字符
- 适用范围:任何带搜索框的地方,例如:搜索引擎、抖音等
- 具体应用:
- 信息发掘:新增需求、功能变动、突发事件
- 舆情监控
-
- 3.基词+高频词根拓展
- 过程:拓词+清洗(去重、去长、去短、去无效词,去非目标词)
- 拓词步骤:
- 1.以某一个词为起点(基词),通过工具网站,找到一批相关的长尾词
- 2.对长尾词做分词,然后统计词频,找到词频最高的一批词根
- 3.用基词+高频词根,通过工具网站,再找到一批相关的长尾词
- 4.重复上述步骤,直到第一次的高频词根使用完
- 拓词原则:遵循28定律,把能覆盖80%词量的20%词根都拿去拓展,基本就能收集到有代表性的词库了
- 工具网站:5118、百度的关键词规划师、艾奇关键词工具、爱站、站长工具等工具
- 注意:
- 1.分词时要重视词频文档建立
- 2.分词时要忽略无效词根
-
- 4.知乎评论挖掘
- 过程:
- 1.从目标话题入手,再根话题下找到精华板块下的文章
- 2.对精华板块下的文章收集评论信息
- 3.对精华板块下的文章作者写的其它相关文章,也能收集评论信息
- 注意:
- 1.可以把这个思想推广到其它地方
- 2.热门(高赞)的文章才能有更多的评论,而话题下的精华是领域里最热门的内容了
- 3.一名经常输出某领域内容的大小V,他也一定会出现在该领域的精华版块里,他还会有更多相关内容
-
- 5.新词发现技术(需要自己考虑实现)
- 作用:获得一个领域里的特有词根
- 思想:
- 1.根据数据里的文本分布,结合左右邻文本和整体出现频率,用概率的方式计算一段文本是不是一个词汇
- 2.TOP前的词汇一般都是正确的,但是这些词汇是按照概率返回的,不一定是seo领域主要的、常见的。所以我们只需要再根据词频排序(领域常见的词频就比较高)
- 3.词频排序后,可以看到TOP前的大都是seo这个领域常见、重要、主要的词汇,即:这个领域聊来聊去都是在聊这些的词汇,提供的数据越多越丰富,结果越准确
- 适用:适合提取出大词,用于深挖领域长尾词,而新词发现的功能还可以用于其他地方
- 注意:
- 1.单靠想是无法挖出该领域特有的词根的,即使再熟悉也一样
-
- 6.广告挖掘
- 作用:从网站广告发掘需求或商机
- 过程:
- 1.目标站点收集
- * 行业工具站点、网赚博客或论坛、网赚论坛/博客、第三方工具平台、PC端小工具站点、源码平台、线报/兼职/任务平台等
- * 利用5118等关键词工具批量收集与目标站点可能相关的长尾词,将这些长尾词批量拿到百度搜索,搜索结果第一页里经常出现的站点就是我们的目标站点,其他类型站点同理
- 2.站点页面收集:
- * 通过网站首页的栏目链接找到通向所有页面的url
- * 把所有站内的链接都爬收集一编
- 3.广告链接收集:不是站内链接基本可认为是广告,然后加上特征判断(集中在某块区域,旁边有“广告”字眼,文本内容经常包含:优惠、特价、联系、以及各种醒目符号等等,又或者是一条细长的横幅图片,gif格式、有闪动效果,旁边同样有广告字眼)
- 4.对步骤3中的结果排除友链
- 5.对获得广告图片内容可以使用OCR图片文本识别转换为文本
- 注意:
- 1.不同类型的网站投放的广告是不同的,需要根据目标灵活收集变通
- 2.网站上除了友链,一般不会放其它网站的链接,除了广告
-
- 7.用户行为数据挖掘
- 作用:用户行为(浏览、点赞、评论,付费)具有研究价值
- 数据获取平台:贴吧、知道、豆瓣、简书、头条、微博、B站、博客、网课、搜狗微信、分类信息、电商平台
- 过程:根据不同的行为有不同的获取方式,需要自己思考和实现
-
- 筛选方法:
- 无效词库:存放通用的、与目标必定无关的词,经过比对后进行排除
- 去重:需要把一模一样的词去除
- 去长去短:一个正常的关键词的长度是在一定范围内的,太短没有参考意义,太长一般是有重复词根
- 去无效词:乱码、字符串、纯数字等等
- 去非目标词:某些词根一看就不是我们想要研究的,比如一些违法乱纪的,那就把包含该词根的全部去掉,这一步骤并非必须,仅根据个人分析目的。
- 批量剔除非同类(非同一领域)长尾词:
- 步骤:
- 1.对目标词库进行分词和词频统计,然后人工挑选种子词并归属于对应的领域
- 2.利用步骤1的种子词放到词库中筛选出的绝对是对应领域分类的长尾词,分词后就能拓展对应领域的种子词,注:保留词频,步骤3中有用
- 3.利用步骤2中的种子词库对词库进行归类,可以使用多模匹配增加匹配速度(AC自动机)
- 匹配会出现4种结果
- 1.属于目标领域(正)
- 2.属于非目标领域(负)
- 3.同属于两个领域(正、负),需要进一步判断
- 4.没有归属领域
- 优化:
- 1.步骤2中的自动拓展可能出现某个种子词属于多个领域的,对于这种直接排除,不要放入种子库
- 2.没有倾向性的词汇:数字、字符,这都是没有倾向性的,不应该作为种子词
- 3.副词、助词、连词、语气词、疑问词之类的,也没有倾向性,在分词的时候,直接根据jieba的词性剔除,不应该作为种子词
- 4.对于步骤3中同时归属的长尾词,可以用概率的方式进行分类,即某一领域的种子词命中数量超过其它领域,即为归属于该领域
- 注:
- 1.文章例子只用两个不同领域的混合词库举例,应该可以推广到多个领域的混合词库中
- 2.该方法也可以用于敏感词过滤
- 3.正则表达式是单模匹配,随着规模的增大匹配效率在下降,需要更换为匹配效率更高的多模匹配(例:AC自动机)
- 4.该方法能有效的避免长尾效应,提高清洗效率
- 5.种子词的挑选一定要准确,属于某一领域的词只能归属于该领域,如果模糊,宁可不要
- 6.利用种子词拓展种子词,靠的是关联性,通过这种关联性就能进一步拓展种子词库
- 7.主词根要排除,主词根即当前词库生成的来源,每一个词都有主词根,因此操作时要记得排除,不要列入种子库
- 8.如果步骤3中的分类不准确,需要找出这个不准确的词汇,溯源它的种子词,这一定是种子词选错了,纠错后再重新跑一次
- 9.对于没有归属领域的长尾词,观察一下的话就能知道,去掉主词根和非倾向性词汇后就没有啥词汇可以做判断了
- 分析方法:
- 词向量文本分类
- 作用:一种计算文本相似度的方法,针对大量数据进行聚合减少数据量,把相似文本聚合在一起成为一个主题
- 注意:计算词汇相似度时,不要把通用词、无关词等也纳入计算范围,以增加准确性
- 缺点:没有特殊结构,只能一个个主题的看
- 适用范围:任何
-
- 关键词根提取法:
- 作用:按照特定的结构,以一个基词为中心来聚合文本,便于按照层级结构分析和查看
- 方法:
- 1.提取一份词库里词频最高的topN
- 2.按照上一条的思路在包含上一级词根的前提下陆续提取下一层级的topN词频
- 3.最后一个节点的子节点输出对应长尾词
- 4.利用Python的”xmind“模块把词频作为节点输出
- 5.节点中增加数值显示(涵盖总词量/在词库里所占比例),可以知道这个板块在词库中占的比重
- 适用范围:单一领域,即以一个基词为中心进行构建
-
- 模版分析:
- 作用:一个领域可能会有很多方向的需求,需要结合自己的实际情况来定向挖掘
- 模板:
- 1.主词 + 疑问词 + 动词,适合用来挖掘一些服务类、工具类的业务
- 2.主词 + 辅词 + 疑问词,适合分析需求时深挖一个领域、产品的某个垂直版块的潜在问题、需求
- 3.主词 + 费用词,适合去挖掘一些直接的竞价业务
- 4.主词 + 数字 or 英文,是对上面三个模板的补充
- 说明:
- 1.主词的作用限制了领域,疑问词保证了需求,动词则确定了方向
- 2.很多业务总是离不开各种费用词,一个平台也会因为各种各样的原因产生与费用相关的各种搜索
- 3.模板不只这几个,还可以再拓展,要灵活使用
- 4.这个模板工具靠正则表达式就能实现
-
- 带空格关键词分析
- 作用:基于用户行为的一种分析,带空格的关键词与对连续的关键词相比,更能反应用户的特殊需求
- 常见格式:
- 1.XXXXX XXX
- 2.XXX XXXXX
- 说明:
- 1.空格对于搜索引擎,是两个关键词相加的意义
- 2.格式1是先描述场景,然后再带上关键词
- 3.格式2是先限定一个事物范围(app、网站、行业、领域、某个具体事物)
- 适用范围:
- 1.对于目标领域,直接找长尾词,然后专门看其中的带空格的长尾词
- 2.进一步可以把找到的词放到搜索引擎中搜索,统计空格后面的核心词在搜索结果里的飘红率,飘红率为0或者偏低,可能就是机会
-
- 用户情感分析
- 作用:提取行业信息和用户槽点
- 方法:使用情感分析工具对用户的评论进行分析
- 适用:
- 1.分析评论中品牌名称的出现次数,就能简单的得出某个收集范围内的品牌热度
- 2.对行业下的品牌,分析正负面占比(正:称赞,负:有槽点)
- 3.对于评论中的负面评论,可以分析其中的高频词汇(负面词汇),进而得知用户比较在意的地方
- 4.提取其中包含疑问、提问的评论,可以统计用户出现最多的问题是什么样的,从而了解用户的大致需求
- 说明:
- 行业信息:可以帮助我们更加深入的了解该行业,在撰写行业相关内容或从事该行业时会有显著帮助。
- 用户槽点:是用户需求里比较重要的一个版块,它代表着用户情绪,毕竟商业这件事更多时候是满足感性需求而非理想需求
-
- 使用方法:
- 把词汇放入搜索引擎搜索,看看别人通过它们在做什么(核心)
-
- 词汇体系:
- 疑问词:什么、如何、怎样、怎么、哪有、哪些、哪种、哪里、哪个、哪类、有啥、有没有、有什么、能不能、是不是、怎么样、怎么能、怎么弄、怎么做、怎样能、怎样弄、怎样做、可不可以、需不需要、需要什么、吗、呢、哪、么、几、多少、可能、是否、请问、要不要、”?“、”?“
- 人性懒惰:技巧、方法、诀窍、秘诀、套路、快速、一键、批量、自动、自动化、数字化、数智化
- 求资源:资源描述 + 打包/网盘/云盘/百度云/整部/整套/全本/合集、技巧、全集、套路、百度云、高清、超清、整份、在线、全部、下载、上传
- 情绪词:太慢、老是、总是、经常、常常、一直、频繁、时不时
- 产品词:包罗了互联网主流平台名称,比如:微信、抖音、微博、闲鱼、探探等大众小众平台
- 行业词(一个领域范围):Python、seo、sem、百度竞价、段视频、爬虫、区块链、搜索、写作、信息流、引流、自媒体
- 后缀词(文件后缀):txt、rmvb、avi、png、jpg、mobi、epub、flv、mp4、pdf、wma
- 资源词:课件、视频、素材、笔记、电视剧、电影、照片、游戏、歌曲、文档、文件、教程、影片、小说、图片、原图、书籍、课程、链接、音乐、资源
- 意图词(表达强烈的倾向):跪求、打包、网盘、方法、技巧、快速、门槛、盘分享、批量、求购、套路、网盘、一键、云盘、自动
- 私域流量:微信、QQ、群、公众号、个人网站、关注公众号、加微、"加威"、"+薇"、加微、加威、加薇、加胃、加魏、+V、vx、加微、联系、进、找我及其相关变种
- 费用词:费用、价格、报价、学费、多少钱、收费标准
- 描述词:超清、高清、合集、全本、上传、下载、在线、整部、整份、整套
-
- 说明:
- 1.明确信息标题:直接从标题就能看到业务信息
- 2.非明确信息标题:标题里仅由通用词组成,无法再获取其它信息
- 3.搜索引擎:不单指传统的搜索引擎,只要任何一个平台、一个应用、一个APP、一个网站,有搜索框就算搜索引擎
-
-
- 问题:
- 1.有那些特殊词汇?怎么收集?怎么使用
- 2.词向量文本分类
- 无法理解:
- 1. 商业模式不一定都是具体的交易
- 参考:
- 互联网常见的_特殊词汇_,往往被忽略的商机.html
- https://zhuanlan.zhihu.com/p/182462542
- 之前承诺的关键词数据来啦!.html
- https://mp.weixin.qq.com/s/ceYXS-E-6UByhhIeyZVLPA
-
- 一个自动发现新鲜需求的小助手.html
- https://mp.weixin.qq.com/s/akcXPXLzD87A3m20UKhFBg
-
- 如何在百万级的数据里找到别人正在赚钱的项目.html
- https://zhuanlan.zhihu.com/p/157846204
-
- 如何轻松找到抖音里不起眼的赚钱项目.html
- https://zhuanlan.zhihu.com/p/159151941
-
- 学会这几点,就可以在百万数据里找到能赚钱的项目.html
- https://zhuanlan.zhihu.com/p/179046666
- 利用【筛选模板】轻松提取出小红书热门业务.html
- https://mp.weixin.qq.com/s/xsRddRCLsxbtO1fUdKlCTQ
-
- 如何自动收集大批量现成的互联网业务.html
- https://mp.weixin.qq.com/s/UhwPmJQaHDP4dK4vwzenfA
- 绝大部分需求痛点都可以按照这套词库框架挖掘出来.html
- https://mp.weixin.qq.com/s/mr7gfe_FBlHr6SCe2qpHKw
- 技能篇:想要挖掘商机,先学会这个能力.html
- https://mp.weixin.qq.com/s/hhlKqB1g2CyS-hftBe1qEQ
-
- seo清洗百万长尾词数据的策略.html
- https://mp.weixin.qq.com/s/wtTMuwCRJ0aoYeLjFfmbgA
- 学会利用“情感分析”从用户评论里挖掘槽点.html
- https://mp.weixin.qq.com/s/vKlEpJiCe8GLfBgYOj_iMA
-
- 搜一搜SEO选词实操步骤,附提词工具!.html
- https://mp.weixin.qq.com/s/wksTf_ykoZT7HKcC4sHN8Q
-
- 从网页的“小广告”中提取出最热门的业务!.html
- https://mp.weixin.qq.com/s/gXMsal3IKBntYTRbWc754A
- 从付费行为里给自己找一个兼职当作副业.html
-
- 百度搜索移动端流量词热度统计方法.html
- 百度竞价广告:穷尽蓝海流量-收集篇.html
- https://mp.weixin.qq.com/s/zbG_ZEXb69M0mJxo3MxmHw
- 百度竞价广告:穷尽蓝海流量-查词篇.html
- https://mp.weixin.qq.com/s/ThEobvU8JxNRJ_9nsoBEtg
- 几个现学现用的方式:提取用户较为“迫切”的需求!.html
- https://mp.weixin.qq.com/s/JT-2k2ewtono5gU8wHDBgQ
- SEO采集海量文章,用倒排索引找出_类似的标题.html
- 百度竞价:大量挖掘有商业价值的词汇,截流另一片长尾流量!.html
- https://mp.weixin.qq.com/s/ThpgIsUfZ0ruJJb9EPtnDw?poc_token=HP5nmWWj1TRa6DPy6SSlKWq2dg8vhO3jgySZPf68
- 2021年互联网项目库整理-【可能删】
- https://mp.weixin.qq.com/s?__biz=MzU5OTE2MDM3Ng==&mid=2247485602&idx=1&sn=e73342b8aea5c8d050baddbf394ed3b1&chksm=feb86bf5c9cfe2e3452bfdd8162569a194bc9094102a824dd8a6e87a886f5e0528c531cfbbf9&token=1510432013&lang=zh_CN&scene=21#wechat_redirect
|