长尾词挖掘

核心思想：从海量长尾词种寻找有价值的内容，并藉此变现。

无法理解：

商业模式不一定都是具体的交易

基本过程

数据（无价值）-> 挖掘（重点、核心） -> 有效数据（有价值）-> 找到既有业务 -> 变现

基本思想

对于未知的需求，挖掘本身是没有方向的，需要有一套框架体系作为指引
对于确定的需求，应该有一套确定的挖掘手段
先找到卖什么，能不能卖、怎么卖是另外考虑的问题。
必须从人性角度、用户实际需求出发思考
凡是有引流和投广告的地方，都可能存在商机
发现一个可能的商机，就要尽可能的了解整个流程，看别人是怎么做的
挖掘需求，并不一定只是为了找到现成的商业机会或项目，除此之外：引流、内容创作、产品优化，这些事情也都是跟用户需求息息相关的。
- 大批量引流：要知道目标群体想要什么
- 高质量创作：要知道目标群体关注什么
- 准确性优化：要知道目标群体抱怨什么
联网营销的基础：充分了解用户需求，这起到了导航的作用，一切都以它作为索引

框架体系

作用：
1. 作为前进的指引
2. 数据池是鱼塘，有价值的数据就是鱼，框架体系就是编织渔网的方法和渔网本身，这样才能抓到鱼
原理
- “特殊”词汇反映着特定人群的特定需求、特定行为、特定意图
- 提问就是产生需求的最直观的体现
- 动词代表行为，行为体现动机，动机反映需求
过程：信息挖掘（收集） -> 信息筛选（清洗）-> 分析（需要耐心人工完成） -> 使用（创造价值）
分析的基本原则
- 数据分析的前提是需要有比较充足的数据，这样分析出来的结果才是有效的
- 明确分析目的
- 考虑普遍、忽略偶然
- 清洗无关数据
构建逻辑：
1. 从用户的角度思考，遇到需求、问题或者痛点时会用什么词汇搜索
2. 从服务的提供者角度思考，我能提供服务的那些需求一般会涉及什么词汇
3. 关键词本身是人的一种表达方式
符合下列其中之一即为特殊词汇：
- 什么词汇能够体现用户的需求、问题或者痛点
- 什么词汇在用户的描述中必然出现
- 什么词汇能够紧跟时代的发展，能够反映或关联当前的新事物
- 提供服务的那些需求一般会涉及什么词汇

挖掘方法

搜索引擎高级搜索指令搜索

作用：在指定的范围内搜索指定内容
指令：
- intitle：
作用：索后的结果标题里必带完整关键词

格式：intitle:"待搜索的关键词"
- inurl:
作用：搜索后的结果链接里必带完整字符

格式：待搜索的关键词 inurl:待搜索范围里的字符
说明：可以配合爬虫工具更好实现自动收集

下拉词（下拉框里的词）

作用：通过该入口自己能够主动去获取新鲜事物
特点：
1. 时效性（近期）、热度（高频、搜索量），在近期内某些长尾词有了较高频次的搜索就会出现在下拉框里
2. 相关性，即具有联想功能，能用a-Z、0-9、拼音等字符来带出其他词汇
使用：目标主词 + a-Z/0-9/拼音等字符
适用范围：任何带搜索框的地方，例如：搜索引擎、抖音等
具体应用：
1. 信息发掘：新增需求、功能变动、突发事件
2. 舆情监控

基词+高频词根拓展

过程：拓词+清洗（去重、去长、去短、去无效词，去非目标词）
拓词步骤：
1. 以某一个词为起点（基词），通过工具网站，找到一批相关的长尾词
2. 对长尾词做分词，然后统计词频，找到词频最高的一批词根
3. 用基词+高频词根，通过工具网站，再找到一批相关的长尾词
4. 重复上述步骤，直到第一次的高频词根使用完
拓词原则：遵循28定律，把能覆盖80%词量的20%词根都拿去拓展，基本就能收集到有代表性的词库了
工具网站：5118、百度的关键词规划师、艾奇关键词工具、爱站、站长工具等工具
注意：
1. 分词时要重视词频文档建立
2. 分词时要忽略无效词根

知乎评论挖掘

过程：
1. 从目标话题入手，再根话题下找到精华板块下的文章
2. 对精华板块下的文章收集评论信息
3. 对精华板块下的文章作者写的其它相关文章，也能收集评论信息
注意：
1. 可以把这个思想推广到其它地方
2. 热门（高赞）的文章才能有更多的评论，而话题下的精华是领域里最热门的内容了
3. 一名经常输出某领域内容的大小V，他也一定会出现在该领域的精华版块里，他还会有更多相关内容

新词发现技术（需要自己考虑实现）

作用：获得一个领域里的特有词根
思想：
1. 根据数据里的文本分布，结合左右邻文本和整体出现频率，用概率的方式计算一段文本是不是一个词汇
2. TOP前的词汇一般都是正确的，但是这些词汇是按照概率返回的，不一定是seo领域主要的、常见的。所以我们只需要再根据词频排序（领域常见的词频就比较高）
3. 词频排序后，可以看到TOP前的大都是seo这个领域常见、重要、主要的词汇，即：这个领域聊来聊去都是在聊这些的词汇，提供的数据越多越丰富，结果越准确
适用：适合提取出大词，用于深挖领域长尾词，而新词发现的功能还可以用于其他地方
注意：
1. 单靠想是无法挖出该领域特有的词根的，即使再熟悉也一样

广告挖掘

作用：从网站广告发掘需求或商机
过程：
1. 目标站点收集
  - 行业工具站点、网赚博客或论坛、网赚论坛/博客、第三方工具平台、PC端小工具站点、源码平台、线报/兼职/任务平台等
  - 利用5118等关键词工具批量收集与目标站点可能相关的长尾词，将这些长尾词批量拿到百度搜索，搜索结果第一页里经常出现的站点就是我们的目标站点，其他类型站点同理
2. 站点页面收集：
  - 通过网站首页的栏目链接找到通向所有页面的url
  - 把所有站内的链接都爬收集一编
3. 广告链接收集：不是站内链接基本可认为是广告，然后加上特征判断（集中在某块区域，旁边有“广告”字眼，文本内容经常包含：优惠、特价、联系、以及各种醒目符号等等，又或者是一条细长的横幅图片，gif格式、有闪动效果，旁边同样有广告字眼）
4. 对步骤3中的结果排除友链
5. 对获得广告图片内容可以使用OCR图片文本识别转换为文本
注意：
1. 不同类型的网站投放的广告是不同的，需要根据目标灵活收集变通
2. 网站上除了友链，一般不会放其它网站的链接，除了广告

用户行为数据挖掘

作用：用户行为（浏览、点赞、评论，付费）具有研究价值
数据获取平台：贴吧、知道、豆瓣、简书、头条、微博、B站、博客、网课、搜狗微信、分类信息、电商平台
过程：根据不同的行为有不同的获取方式，需要自己思考和实现

百度搜索移动端流量词+热度统计

作用：快速挖掘一些热门的有代表性的长尾需求
过程：
1. 选择一个行业主词
2. 将主词拿到百度移动端（m.baidu.com）里搜索，提取“大家还在搜”这个版块的所有关键词，并去除不包含主词的推荐词
3. 把步骤2得到的推荐词按格式记录（推荐词，母词）
4. 把新得到的推荐词加入搜索队列，挨个拿到搜索引擎里搜索获得新推荐词
5. 重复以上步骤，直到不再看见没有搜索过的新词
热度计算：以推荐词为维度，统计出现不同母词出现的次数，即为热度
注意：
1. 虽然是以百度举例，但是可以推广到其它地方

利用海量文本内容来挖词

作用：全面的收集目标领域中的特有关键词原理：利用TF-IDF的思想，收集一批目标领域的文本内容（例如：几万篇以小程序为主题的文章），以及一批非目标领域的随机文本内容（例如：几十万篇新闻文章），利用TF-IDF算法提取目标领域每一篇内容的高权词，再结合无差别领域的内容来抑制常见词的分数，沉淀出来的就是目标领域的相关词汇，以它们作为词缀结合主词根去反复拓词，理论上就能尽可能的把整个领域的词都收集到，收集的内容越多，这种计算就越准确，且能整理的词缀就越全面过程： 1.内容收集

        * 目标领域内容的收集：一些专题论坛、社区、各种垂直自媒体号等，因为特定的关系它们的内容都围绕具体某一领域，包括百度的搜索结果其实也可，例如：知乎里一个问题下的所有答案，同一个话题下的所有问题对应的所有答案，都是讨论同一个领域的（所谓的领域是相对的）
        * 非目标领域的无差别内容的收集：百度找"新闻语料库"，有合适的直接下载，有技术能力也可以自己采集一些自媒体文章，有个一二十万也行，分类随机即可
    2.计算权重分数，一般权重高的topN词汇就是目标领域特有的词汇
    3.如果目标想要获得别人找不到的词汇，那么只要先用常规方法获得领域内常见词汇，然后与步骤2中的词汇做差集，这样得到的就是别人没有得到过的词汇了
    4.最后就可以使用最终得到的领域词来拓词、来寻找领域相关的长尾词了
说明：
    1.文本内容可以是：文章、回答、帖子、新闻等互联网特有形式的文本内容
    2.TF-IDF算法：是判断文章主题时常见的算法，某篇文章中，高度反复出现的一些词，在其他文章里很少出现，这些词是最能说明文章主题的，在任何文章里总是出现的词汇不助于理解文章，不具备重要性和相关性
    3.TF-IDF算法缺陷：对于过滤低词频的不相关词汇效果很显著，但是某些常见词比如："可以"，它在某些文章还就总是经常出现，词频很高，再加上非目标领域数据往往不见得全面，有时抑制效果不太好，还需要辅助支撑一下。
    4.通过TF-IDF算法，不用刻意处理停止词、常见词、无实意词等等，因为随着更多的无差别内容参与计算，大多数无效目标的分数会不断降低
注意：
    1.单纯的靠主词根进行拓展是很难全面收集目标领域中的特有关键词的
    2.无差别领域的内容可以在不同行业重复利用
    3.使用该种方法只能尽可能的寻找，无法真正的穷尽

批量挖掘业务

作用：凭空批量挖掘现成项目的项目名称或业务描述
过程：
1. 收集一批目标相关的关键词
2. 把关键词放到搜索引擎中搜索，然后把对应的topN网站记录下来
3. 爬取topN网站下的所有文章标题和对应的文章简介
4. 统计所有词根
5. 无差别分割文本：相邻的两个字、相邻的三个字，以此类推进行分割（不是用的jieba这类分词工具）
6. 去除无效词汇：无差别分割文本后会出现大量无效词汇，需要把一头/一尾的词拿去和原始文本的头/尾进行拼接，然后和步骤4中的词根进行比对，如果不存在，则该文本不是词汇
7. 去除无意义词汇：在正常表达或描述一个业务的词汇，不会出现：这个、那个、可能、肯定、会不会、能不能等字眼，如果词汇中出现了该字眼即为无效词汇，直接去除
8. 最后拿到的就是正常的词汇了，可以正常分析使用了
说明：
1. 词汇是字与字之间相邻而成词，一个词最少有两个字组成，最长不一定，一般表述一个业务的词汇在4-7个字就足够了，假设限定在7个字
2. 不能直接使用分词工具，因为对于未知的业务词是无效的

筛选方法

无效词库：存放通用的、与目标必定无关的词，经过比对后进行排除
去重：需要把一模一样的词去除
去长去短：一个正常的关键词的长度是在一定范围内的，太短没有参考意义，太长一般是有重复词根
去无效词：乱码、字符串、纯数字等等
去非目标词：某些词根一看就不是我们想要研究的，比如一些违法乱纪的，那就把包含该词根的全部去掉，这一步骤并非必须，仅根据个人分析目的。
批量剔除非同类（非同一领域）长尾词：
- 步骤：
1. 对目标词库进行分词和词频统计，然后人工挑选种子词并归属于对应的领域
2. 利用步骤1的种子词放到词库中筛选出的绝对是对应领域分类的长尾词，分词后就能拓展对应领域的种子词
注：保留词频，步骤3中有用
1. 利用步骤2中的种子词库对词库进行归类，可以使用多模匹配增加匹配速度（AC自动机）
2. 匹配会出现4种结果
  - 属于目标领域（正）
  - 属于非目标领域（负）
  - 同属于两个领域（正、负），需要进一步判断
  - 没有归属领域
- 优化：
1. 步骤2中的自动拓展可能出现某个种子词属于多个领域的，对于这种直接排除，不要放入种子库
2. 没有倾向性的词汇：数字、字符，这都是没有倾向性的，不应该作为种子词
3. 副词、助词、连词、语气词、疑问词之类的，也没有倾向性，在分词的时候，直接根据jieba的词性剔除，不应该作为种子词
4. 对于步骤3中同时归属的长尾词，可以用概率的方式进行分类，即某一领域的种子词命中数量超过其它领域，即为归属于该领域
- 注：
1. 文章例子只用两个不同领域的混合词库举例，应该可以推广到多个领域的混合词库中
2. 该方法也可以用于敏感词过滤
3. 正则表达式是单模匹配，随着规模的增大匹配效率在下降，需要更换为匹配效率更高的多模匹配（例：AC自动机）
4. 该方法能有效的避免长尾效应，提高清洗效率
5. 种子词的挑选一定要准确，属于某一领域的词只能归属于该领域，如果模糊，宁可不要
6. 利用种子词拓展种子词，靠的是关联性，通过这种关联性就能进一步拓展种子词库
7. 主词根要排除，主词根即当前词库生成的来源，每一个词都有主词根，因此操作时要记得排除，不要列入种子库
8. 如果步骤3中的分类不准确，需要找出这个不准确的词汇，溯源它的种子词，这一定是种子词选错了，纠错后再重新跑一次
9. 对于没有归属领域的长尾词，观察一下的话就能知道，去掉主词根和非倾向性词汇后就没有啥词汇可以做判断了

分析方法

词向量文本分类

作用：一种计算文本相似度的方法，针对大量数据进行聚合减少数据量，把相似文本聚合在一起成为一个主题
注意：计算词汇相似度时，不要把通用词、无关词等也纳入计算范围，以增加准确性
缺点：没有特殊结构，只能一个个主题的看
适用范围：任何

关键词根提取法

作用：按照特定的结构，以一个基词为中心来聚合文本，便于按照层级结构分析和查看
方法：
1. 提取一份词库里词频最高的topN
2. 按照上一条的思路在包含上一级词根的前提下陆续提取下一层级的topN词频
3. 最后一个节点的子节点输出对应长尾词
4. 利用Python的”xmind“模块把词频作为节点输出
5. 节点中增加数值显示（涵盖总词量/在词库里所占比例），可以知道这个板块在词库中占的比重
适用范围：单一领域，即以一个基词为中心进行构建

模版分析

作用：一个领域可能会有很多方向的需求，需要结合自己的实际情况来定向挖掘
模板：
1. 主词 + 疑问词 + 动词，适合用来挖掘一些服务类、工具类的业务
2. 主词 + 辅词 + 疑问词，适合分析需求时深挖一个领域、产品的某个垂直版块的潜在问题、需求
3. 主词 + 费用词，适合去挖掘一些直接的竞价业务
4. 主词 + 数字 or 英文，是对上面三个模板的补充
说明：
1. 主词的作用限制了领域，疑问词保证了需求，动词则确定了方向
2. 很多业务总是离不开各种费用词，一个平台也会因为各种各样的原因产生与费用相关的各种搜索
3. 模板不只这几个，还可以再拓展，要灵活使用
4. 这个模板工具靠正则表达式就能实现

带空格关键词分析

作用：基于用户行为的一种分析，带空格的关键词与对连续的关键词相比，更能反应用户的特殊需求
常见格式：
- XXXXX XXX
- XXX XXXXX
说明：
1. 空格对于搜索引擎，是两个关键词相加的意义
2. 格式1是先描述场景，然后再带上关键词
3. 格式2是先限定一个事物范围（app、网站、行业、领域、某个具体事物）
适用范围：
- 对于目标领域，直接找长尾词，然后专门看其中的带空格的长尾词
- 进一步可以把找到的词放到搜索引擎中搜索，统计空格后面的核心词在搜索结果里的飘红率，飘红率为0或者偏低，可能就是机会

用户情感分析

作用：提取行业信息和用户槽点
方法：使用情感分析工具对用户的评论进行分析
适用：
1. 分析评论中品牌名称的出现次数，就能简单的得出某个收集范围内的品牌热度
2. 对行业下的品牌，分析正负面占比（正：称赞，负：有槽点）
3. 对于评论中的负面评论，可以分析其中的高频词汇（负面词汇），进而得知用户比较在意的地方
4. 提取其中包含疑问、提问的评论，可以统计用户出现最多的问题是什么样的，从而了解用户的大致需求
说明：
- 行业信息：可以帮助我们更加深入的了解该行业，在撰写行业相关内容或从事该行业时会有显著帮助。
- 用户槽点：是用户需求里比较重要的一个版块，它代表着用户情绪，毕竟商业这件事更多时候是满足感性需求而非理想需求

品牌词周边流量

作用：在下拉框找到带出的各种各样的需求，这些需求往往还没满足
特殊性：具有竞争小、有时效性和搜索量，同时还有典型的长尾性质，因为我们可以通过聚合很多“品牌”的周边需求（同领域）
原理：用户会去搜索一些具体“对象”的相关内容，我们不知道是什么内容，但是可以整理大量的“对象”名称，通过这些名称在下拉框收集长尾词，带出各种各样的需求，这些需求往往还没满足，挑出我们能满足的，在相关平台发布内容，比如贴吧或知道等，标题带上“对象”名称和需求描述，这两者在单一的搜索时都会搜出很多结果，但是结合起来搜索往往没有什么相关内容（因为下拉框、近一段时间），很容易排在首页命中用户的搜索，达到引流或变现的目的
方法：
1. 通过搜索下拉框搜索”品牌“，从而获取长尾词
2. 对长尾词进行聚合分析
说明：
1. 品牌并不一定是知名度很高的某个名词，有很多小众和垂直的领域也有很多的KOL，但他们也会延伸出很多的周边流量
2. 品牌并不一定是指具体某个公众号，他可以是某个KOL、某个自带话题的名人、知名自媒体号、大型平台（APP、网站）等等，这些分类的具体“对象”，会因为各种原因有意无意的“创造”出一些需求来
3. 分类具体对象，比如：公众号是一个分类，每一个公众号名称就是具体的对象，APP是一个分类，每一个APP名称就是具体的对象，电影是一个分类，每一部电影名称就是具体的对象（比如我们挨个去搜索电影名称，我们会发现跟电影有关的一些“共性需求”，也就是但凡搜索电影，一般都会涉及的需求，这就是我们通过一部部电影总结出来的），在生活中我们还可以找到很多
注意:
1. 单个品牌对象的需求可能无法发现，但是如果是分类具体对象的需求聚合分析，就有可能发现需求点

使用方法

把词汇放入搜索引擎搜索，看看别人通过它们在做什么（核心）

词汇体系

疑问词：什么、如何、怎样、怎么、哪有、哪些、哪种、哪里、哪个、哪类、有啥、有没有、有什么、能不能、是不是、怎么样、怎么能、怎么弄、怎么做、怎样能、怎样弄、怎样做、可不可以、需不需要、需要什么、吗、呢、哪、么、几、多少、可能、是否、请问、要不要、”？“、”?“，有哪些
人性懒惰：技巧、方法、诀窍、秘诀、套路、快速、一键、批量、自动、自动化、数字化、数智化
求资源：资源描述 + 打包/网盘/云盘/百度云/整部/整套/全本/合集、技巧、全集、套路、百度云、高清、超清、整份、在线、全部、下载、上传
情绪词：太慢、老是、总是、经常、常常、一直、频繁、时不时、最好
产品词：包罗了互联网主流平台名称，比如：微信、抖音、微博、闲鱼、探探等大众小众平台
行业词（一个领域范围）：Python、seo、sem、百度竞价、段视频、爬虫、区块链、搜索、写作、信息流、引流、自媒体
后缀词（文件后缀）：txt、rmvb、avi、png、jpg、mobi、epub、flv、mp4、pdf、wma
资源词：课件、视频、素材、笔记、电视剧、电影、照片、游戏、歌曲、文档、文件、教程、影片、小说、图片、原图、书籍、课程、链接、音乐、资源
意图词(表达强烈的倾向)：跪求、打包、网盘、方法、技巧、快速、门槛、盘分享、批量、求购、套路、网盘、一键、云盘、自动
私域流量：微信、QQ、群、公众号、个人网站、关注公众号、加微、"加威"、"+薇"、加微、加威、加薇、加胃、加魏、+V、vx、加微、联系、进、找我及其相关变种
费用词：费用、价格、报价、学费、多少钱、收费标准
描述词：超清、高清、合集、全本、上传、下载、在线、整部、整份、整套