- A+
我将在本专栏中演示的内容生成技术和技术似乎来自科幻小说,但它们现在是真实的,可以自由使用。
在我完成编码实验并开始写这篇文章之后,我思考了公开分享这些信息的积极和消极影响。
正如您将看到的,现在制作机器生成的内容相对容易,而且几代人的质量正在快速提高。
这让我得出了一个可悲的结论:我们将看到比以前更多的垃圾邮件结果。
幸运的是,谷歌最近发布了2019年垃圾邮件报告,让我放心了。
“去年,我们发现每天有超过250亿的页面是垃圾邮件。(如果每一页都是一本书的一页,那么每天的《战争与和平》将超过2000万册
我们的努力有助于确保99%以上的结果访问都能带来无垃圾邮件的体验。
在过去的几年里,我们观察到,带有自动生成和刮取内容的垃圾网站的数量在增加,这些行为会激怒或伤害搜索者,比如假按钮、压倒性广告、可疑的重定向和恶意软件。这些网站往往具有欺骗性,对人们没有真正的价值。2019年,与2018年相比,我们能够将此类垃圾邮件对搜索用户的影响降低60%以上。“
虽然谷歌每天报告的垃圾邮件页面数量惊人,但他们在全面抑制垃圾邮件方面的成功率高达99%。
更重要的是,他们在抑制机器生成的垃圾邮件内容方面取得了令人难以置信的进展。
在本专栏中,我将用代码解释计算机如何能够使用NLG的最新进展生成内容。
我会复习一下理论和一些指导原则,以保持你的内容有用。
这将有助于你避免陷入谷歌和必应日以继夜地努力摆脱的所有网络垃圾邮件。
精简内容页
在我关于标题和元描述生成的文章中,我分享了一种有效的技术,它依赖于汇总页面内容来生成元标记。
一旦你能看到高质量的作品,你也能看到。
但是,如果页面中没有任何要总结的内容,该技术就会失败。
让我告诉你一个很聪明的办法来解决这个问题。
如果此类页面有高质量的反向链接,则可以使用锚定文本和围绕反向链接的文本作为摘要。
等待!
但为什么呢,
让我回顾一下1998年,谷歌搜索引擎的创立。
在描述他们新的搜索引擎的论文中,佩奇和布林在2.2节分享了一个非常有趣的见解。
“大多数搜索引擎将链接的文本与链接所在的页面相关联。此外,我们将它与链接指向的页面相关联。这有几个优点。首先,锚通常比页面本身提供更准确的web页面描述。第二,锚可能存在于无法被基于文本的搜索引擎索引的文档,例如图像、程序和数据库。这样就可以返回尚未实际爬网的网页。“
技术方案如下:
- 我们将获得反向链接和相应的锚文本使用新的必应网站管理员工具
- 我们将从最高质量的反向链接周围的文本
- 我们将创建摘要和长格式的内容使用刮掉的文本
必应网站管理员工具反向链接报告
我喜欢BWT中新的反向链接工具的一个特性,就是它不仅可以提供指向您自己站点的链接,还可以提供指向其他站点的链接。
我希望这将成为一个流行的免费替代付费工具。
我导出了CSV文件,其中包含大量链接和锚定,但是当我试图使用Python pandas加载它时,发现了一些格式问题。
随机锚文本可能包含逗号,并导致逗号分隔的文件出现问题。
我通过在Excel中打开文件并以Excel格式保存来解决这些问题。
用Python抓取周围的文本
正如你在我上面的截图中看到的,许多锚文本都很短。
我们可以把这一段写下来。
首先,让我们加载从BWT导出的报告。
我用入站链接的数量查看了目标URL。
我从其中一个页面中提取了反向链接,用这段代码来评估这个想法。
现在,让我们看看如何使用目标URL和反向链接来提取包含锚定的相关锚文本。
从反向链接获取文本
首先,让我们安装请求html
为了保持代码简单,我将手动生成一个CSS选择器来获取链接周围的文本。
考虑到页面上使用JavaScript或Python代码的链接和锚定,计算这个值并不困难。
也许这对你来说是个好主意。
打开一个示例谷歌SEO反向链接页面,使用Chrome开发工具,您可以右键单击感兴趣的段落并复制CSS选择器。
这是我用的选择器。
这是返回的文本。我将示例锚文本的文本加粗。
我们知道,教师留任会提高学生的成绩,反之,教师流失也会损害学生的成绩。每年约有16%的教育工作者离开这个领域,我们知道很多老师,像我一样,在头五年就离开了。教师们报告说,他们离开的最大原因是缺乏自主性和发言权,还有文化问题,尤其是纪律问题。更重要的是,卖空地区的营业额每年高达22亿美元。
现在,让我们开始有趣的部分!
神经文本生成
我们将使用与我在上一篇文章中用于生成标题和元描述的相同的摘要代码,但有一个改动。
我们将指定一个较长的长度,而不是指定一个比原始段落短的合适的摘要长度。行吗,让我们看看!
我得到了一个有趣的警告。
您的最大长度设置为250,但您输入的长度只有99。您可以考虑手动减小max_length,例如summary生成器(“…”,max_length=50)
让我们看看生成的文本。
原始文本有492个字符,生成的文本有835个字符。
但是,看看生成的文本中出现的质量和新颖的英文网站SEO句子。当然,真是太棒了!
这种技术能产生更长的文本吗,是的!
生成的文本有1420个字符,并保持逻辑流!
推动这项技术的猛兽是来自Facebook的一个名为BART的模型。
作者将其描述为BERT的一种广义形式。
让我们看看这是怎么回事。
神经文本生成的工作原理
你是否参加过能力倾向测试或智商测试,在测试中你会看到一系列的数字,你需要猜测下一个数字,
本质上,当我们提供一些初始文本并要求模型预测下一步会发生什么时,我们的模型就是这样做的。
它将我们最初的文本转换成一个数字序列,猜测下一个数字,然后获取包含猜测数字的新序列,并再次重复相同的过程。
这将一直持续到达到我们指定的长度限制。
现在,这些不仅仅是正则数,而是向量,更具体地说(在BERT和BART的情况下)双向单词嵌入。
在我的深度学习文章第1部分和第2部分中,我使用GPS类比解释了向量和双向单词嵌入。请务必检查一下。
总之,嵌入对它们所代表的单词的丰富信息进行编码,从而显著提高了预测的质量。
所以,这里有一个例子来说明这一点。
给定文本:“seo执行重复性任务的最佳编程语言是,而seo做前端审计的最佳编程语言是,我们要求模型完成这句话。
第一步是将单词转换成数字/嵌入,每个嵌入都标识上下文中的单词。
然后,把这个问题变成一个计算机可以解决的谜题,计算出在给定的上下文中可以填充空白的数字/嵌入。
能够解决这类难题的算法称为语言模型。
语言模式与英语或其他语言中的语法规则相似。
例如,如果文本是一个问号,它必须以问号结尾。
不同的是,所有的单词和符号都用数字/嵌入表示。
现在,有趣的是,在深度学习中(我们在这里使用的是),您不需要手动创建一个大的语法规则列表。
该模型通过有效的试错来经验地学习规则。
这是在所谓的预训练阶段完成的,在这个阶段中,模型在大量数据的基础上训练几天,并使用非常强大的硬件。
对我们来说,最好的部分是,这些努力的成果是免费的,任何人都可以使用。
我们真的很幸运,
BERT是一个语言模型的例子,GPT-2和BART也是。
如何永远使用它
正如我在上面提到的,这种东西非常强大,可以用来以相对低廉的价格大规模地搅动无用的内容。
我个人不想浪费时间在垃圾堆里搜索。
随着时间的推移,我逐渐意识到,为了让内容在搜索中发挥作用,它需要:
- 要有用
- 满足真正的需要
如果没有,不管是计算机还是人工制造,它都不会得到最终用户的任何参与或验证。
排名和表现的机会真的很低。
这就是为什么我更喜欢像总结和翻译或者提问/回答这样的技巧,你可以更好地控制这一代人。
你要确保他们能帮你增加新的价值。
森摩尔网络从2013年开始做外贸网站的SEO推广服务,到现在已经7年多了。我们已经为上千个人和企业提供外贸网站的优化推广服务,客户遍及全国各地,我们的服务深受客户好评!如果您有外贸网站需要推广,请联系我们,我们会提供专业、快速的额服务!