CDA免费好课与相关介绍

数据获取经验谈

2024-05-15

一、爬虫:(经验谈)

1、主要是编程,工具都有比较明显的爬虫标识或者爬取的频率行为模式等,容易屏蔽,自己开发的可以随时改请求信息中可以自定义的部分(标识),采集频率也可以灵活变动,比如间隔多少,或者尝试在发送请求的时候加代理ip等,用php和python都有一些开源的采集框架和类库可以使用,咱们主要用的是python自动化测试那一套来改的,python + pytest + selenium + webdriver,能做到普通的采集方式,和模拟浏览器下人工点击的方式
python采集框架这里有几个带git地址 
https://blog.csdn.net/weixin_46428928/article/details/128239671
php的不推荐,没好用的,而且性能不能python

2、如果资源网站有限制ip请求次数,可以购买多个低配服务器实现多个ip分布式采集,或者用家用网络的动态ip来绕过(部分网络可能需要定时重启路由器更新ip地址)
如果有限制账号下获取的次数,可以购买多个账号

3、不会编程可以用 爬山虎,火车头那种安装性的带界面的软件

4、ai爬虫,目前学习到的思路主要还是前半截省事点 给他说我要采集哪一块数据,ai理解后提取那块的元素,提取的技术逻辑还是和编程一样根据 xpath 找html元素节点并获取元素内容那种,从采集的整体流程看只是一小部分工作量可以给ai,获取后的数据怎么处理,效果不好再去清洗之类的还要人工编程处理


6款可用于LLMs的爬虫工具/方案: 最近爬虫工具很多,整理了一个工具集合

1、Crawl4AI 
Crawl4AI可将语义标记的数据块提取成 JSON 格式,提供干净的 HTML 和 Markdown 文件,用于 RAG(检索增强生成)、微调以及 AI 聊天机器人的开发 Crawl4AI提供爬取功能和多 URL 支持,可轻松集成为库或服务器,并提供了 Docker 容器来简化设置 
特点: 1、高效且提取有价值数据 2、适合LLM格式(JSON、清理后的 HTML、Markdown) 3、支持同时多个 URL 4、用 ALT 替换媒体标签 
github:
https://github.com/unclecode/crawl4ai

2、FireCrawl 
FireCrawl能够抓取任何网站的所有可访问子页面,无需站点地图,并将内容转换为干净的Markdown格式 FireCrawl 与传统的网页爬虫工具不同,即使网站使用JavaScript动态生成其内容,FireCrawl 也能有效的进行抓取 此外,还提供了易于使用的API,使开发者能够通过简单的API调用实现内容的爬取和转换 
github:
https://github.com/mendableai/firecrawl

3、Scrapegraph-ai 
Scrapegraph-ai使用 LLM 和直接图形逻辑为网站和本地文档(XML、HTML、JSON 等)创建抓取流程 用户只需要指定想要提取的信息类型,ScrapeGraphAI 库就能自动执行数据抓取的任务 
github:
https://github.com/VinciGit00/Scrapegraph-ai

4、Markdowner 一个快速的开源工具,可以将网站转换为 Markdown 数据 支持自动爬虫、详细模式、javascript网站等 易于扩展和自托管,运行成本低 
github:
https://github.com/dhravya/markdowner

5、Jina Reader Jina Reader可以将任何 URL 转化为 LLM 所需Markdown格式 可以针对这些内容集成不同的模型,支持 API 
github:
https://github.com/jina-ai/reader

6、Skyvern 支持自然语言进行网页导航、过时/电商网站的数据爬取、填写表单等复杂多步操作 支持绕过 CAPTCHA/Authentication 等验证操作 支持API 调用/Debug 模式 
github:
https://github.com/Skyvern-AI/skyvern

7、EasySpider易采集:免费开源可视化爬虫工具

—可视化浏览器,自动化测试/数据采集/爬虫软件

—可以无代码图形化的设计、执行爬虫任务

只需要在网页上选择自己要操作的内容,根据提示框操作即可完成任务的设计和执行

也可以单独以命令行的方式进行执行,非常便捷的嵌入到其他系统中

github:https://github.com/NaiboWang/EasySpider

推荐7


二、短视频获客(经验谈):目前短视频获客有两种方式,一种是按爆款视频7步生成法来制作视频,见下图:

一种是把自己的生活融入到短视频中,相当于日记体,我们看一些知名人物都会经常分享自己的日常,就是这种日记体,也是很吸粉的
 

对于电商卖家来说,还可以通过买家来加用户数据,如下图


三、数据源本身:见“CDA会员俱乐部分享的数据地图”文档,文档中分享20+重磅数据
数据地图下载地址(不断更新):
点击下载
四、小红书、百度百家等帐号
1、定位

千万不要把小红书当朋友圈发,起号前就要明确自己要做的垂直赛道进行深耕创作。
如何选择垂直赛道?
a、兴趣所在
就是你的爱好,你喜欢做的事,总被朋友或家人表扬的地方。
b、专业所在
你所学的专业或者你擅长的做的,比如擅长画画,或者擅长刷题,都可以。
选一个有兴趣又擅长的赛道,不仅会促进你的更新,还会让你觉得有趣,容易坚持,并且在这个领域不断研究下去。

2、创建账号

用一个新手机号创建一个新账号并进行为期一周的养号,这是为了让红薯判定你是真实用户而不是四(防止后面限流),并且判定你账号的赛道后面更精准的推流。

养号方法
(1)关注红薯所有官方账号,关注你要做的领域的大V。
(2)搜索并查看你要做的领域的内容,并且进行点赞收藏评论,每天点赞10条,收藏和评论各5条。
(3)每天用这个账号刷1小时。

3、账号名称简介

养号完成后开始修改自己的名称和简介一名称:简单好记并且和你要做的领域相关。

假如你要做一个运营账号,那么可以取名:运营xx,xx的运营笔记等,其他赛道以此类推。

简介:一句话介绍自己,可以是你的职位,行业,经验。如:上市公司十年运营总监。并且说明你的内容方向,如:知识分享,面试经验,个人成长等。给用户一个初始印象。

背景图:简单大方即可,不要太过花哨。博主标签:如大学生,上班族,xx博

博主标签:如大学生,上班族,xx博主,xx专家,咖啡师,产品经理,运营等

4、找对标、拆爆款

a、如何找对标账号:

(1)名称搜索:

可以直接搜索你领域的关键词然后关注粉丝量多并且持续更新的博主。

(2)爆款帖子搜索:

直接搜索垂直领域爆款笔记,去查看发布笔记的博主,关注和自己领域相关的。

(3)系统推荐:会根据你的日常搜索和查看给你推荐相关领域帖子,可以关注低粉但是有豹文的博主。

关注 50个对标账号并且收藏他们点赞收藏最高的帖子进行爆款拆解。

b、如何拆爆款:

(1)看选题:笔记主要是做什么主题的内容内容都包括了什么,如何呈现的(视频or图文),面对的人群是哪些

(2)看封面:单图/多图,图片拍摄角度等图片文案的内容,字体,大小,位置,其他

参考账号:栗嘻嘻  https://www.xiaohongshu.com/user/profile/59d3608320e88f102221c85d


五、投放:搜索引擎,电商平台,短视频平台,知乎等(经验谈)

竞价SEM投放

做搜索引擎投放有很多小技巧。第一,你得确定目标市场和关键词,细分市场找到目标客户,才能把关键词合理分组,这样广告的相关性和覆盖面会更高。第二是账户结构,不能在一个推广单元里放太多关键词,确保关键词和创意高度相关。然后是创意撰写,要简洁明了,突出产品或服务的优势,可以用通配符和飘红来吸引点击。投放策略也很重要,需要根据不同的地域和时间段来调整,还要控制好投放成本。比如,先用高价吸引流量,再逐步降价。最重要一点,定期监控数据,优化关键词质量度,这样不仅能提升推广效果,还能降低点击成本。对于竞价投放选择自建团队还是第三方服务公司运营,取决于企业的预算、目标和需求。自建团队适合预算充足、追求长期发展和灵活控制的企业,而第三方服务公司则适合预算有限、需要快速见效并利用外部专业经验的短期或阶段性需求。对于靠谱的代理商选择,如聚圣万合,国双科技,品众集团,无双科技,这些都是老牌且实力雄厚的代理商。

小红书聚光投放

在小红书进行聚光投放,先分析用户从哪些渠道进入你的笔记,比如发现页、搜索页、关注页等,再根据数据制定投放策略。如果搜索页流量高,可以考虑追投搜索广告。选择那些跑量能力强、转化效果好的笔记进行投流,关注点击率和曝光量,挑选最具种草价值的笔记。使用内容加热工具提高笔记曝光量,确保更多用户看到。配置聚光广告时,要注意时间和内容能吸引目标用户,上传的素材和链接符合广告审核标准。投放后,评估广告效果,通过数据反馈优化策略,确保广告效果最大化。

抖音投放

要在抖音上做广告,先得了解用户喜欢什么,通过调查和数据分析找到他们的兴趣点。内容要有创意,开头几秒尤其重要,得抓住眼球。视频中可以加些互动环节,比如提问题、做小游戏,增加用户参与感。投放广告时,用千川、随心推等工具精准定位用户,提高转化率。投放后,关注数据反馈,播放量、点赞数等都是关键指标。发现问题及时调整策略。投放时间也很重要,选在用户活跃的时段,比如早上、中午或晚上。这样,抖音投放才能更有效,吸引更多关注和参与。

抖音抖+投放技巧

投放前需考虑账号粉丝情况及新旧,新账号选自定义推荐增加精准粉丝,老账号选系统推荐。选择播放量高的视频投放,发布后24小时再投放。投放时长可选6-48小时,新账号选长时,老账号选短时。追投需满足完播率、点赞率和粉丝成本条件。达人相似选择数量根据预算定。


六、购买数据:在淘宝、闲鱼、CDA会员俱乐部也有不少珍贵数据由卖家出售,可以自己联系或跟CDA会员俱乐部的客服联系

七、电话机器人,群发邮件和短信

目前社群中提供全国所有企业的公开联系方式,包括固话、手机、邮件,可以通过电话机器人、邮件群发系统、群发短信等方式联系,当然需要有电话费、邮件发送费用、短信费用的支出
https://telrobot.talkingview.com.cn/,注册后可获得全国所有企业公开的联系方式


邮箱:admin@bjxjjc.com

电话:010-65900180

Copyright 2021-,北京迅捷捷出科技有限公司  ,All rights reserved 备案号:京ICP备2023032348号-1