96SEO 2026-02-20 06:49 9
2021年2月20日我和我女朋友第一次见面之后开启了我们两个人的故事时隔一年我想将我们的聊天记录提取出来进行简单的数据分析一下。

微信里面有2021年4月20日至2022年2月19日的聊天记录一共十个月的数据。
在网上有许多文章关于可以找到关于如何将微信里面的聊天记录导出成CSV或者txt格式大家可以去参考。
以下就简单的写一下如何将微信的聊天记录提取出来的步骤
2.安装模拟器将手机微信登录到模拟器的微信上模拟器本身有root权限
/data/data/com.tencent.mm/MicroMsg
5.在MicroMsg文件中找到EnMicroMsg.db复制到/mnt/shell/emulated/0/o***rs中现在访问windows的
C:\Users\你的用户名\Nox_share\O***rShare
6.找微信的uid/data/data/com.tencent.mm/shared_prefs/
找到文件auth_info_key_prefs.xml找到default_uin后面的数字就是微信UID模拟器里面可以直接看到IMEI
7.计算数据库查询密码模拟器IMEI微信UID在免费MD5在线计算得到的32位小写MD5的前七位就是密码
注意数据库查询密码和微信的版本有关系不同的坂本解码方法不一样现在的最新版本
手机序列号为固定值为1234567890ABCDEF大家可以都去试一下。
原始数据一共有22列74019行说明我们两在10个月的时间里面发了74018条消息一共306天平均每天发了241.89条消息还处于热恋期嘿嘿。
本文用的python进行的数据分析并附上代码。
isSendcreateTimetalkercontent011.629640e12wxid_mbw5g1awfkvj22我看看101.629640e12wxid_mbw5g1awfkvj22好可怜有这样的爹201.629640e12wxid_mbw5g1awfkvj22这五个娃命途多舛311.629640e12wxid_mbw5g1awfkvj22又是白宇和毛晓彤合作411.629640e12wxid_mbw5g1awfkvj22之前有一部他们俩合作的挺火的剧叫什么来着
print(chat.isSend.value_counts())
int64isSend中为1的是我发的消息为0的是女朋友发的消息结果统计一共74018条消息我发了35749女朋友发了38269条消息我比女朋友少发了2520条消息果真还是我输了。
手动哭哭表情包
content[createTime].values[0]//1000#除以1000用以剔除后三位0c
content[content].values[0]chat_time.append(t)chat_content.append(c)def
FontProperties(fnamerC:\Windows\Fonts\MSYH.TTC,size22)#标题字体样式
FontProperties(fnamerC:\Windows\Fonts\MSYH.TTC,size18)#横纵坐标字体样式
sns.set_style(darkgrid)#设置图片为深色背景且有网格线
fig.savefig(chat_time.png,dpi100)
从图中我们可以看到聊天最多的时间段为22点到23点达到了11%以上一般晚上聊的比较多其次就是早饭前后和午饭前后聊的也比较多。
发现在0点以后还有些聊天记录下次再分析的时候希望这部分的百分比降低早睡才能变美哦。
类似的思想可以绘制出每月的聊天记录因为图中4月只有10天2月有19天聊天记录所以比例会小一点8月和9月聊天记录最多往后的聊天记录就有略有下降
类似的思想可以绘制每日汇总的柱线图可以看到1号和16号的聊天记录较多5号和19号的聊天记录较少总体分布较均匀。
图中横坐标为星期几可以看出分布较均匀在周末略比工作日的聊天记录多一点。
time.localtime(t)o***rStyleTime
startdatetime.datetime(2021,4,20)
stopdatetime.datetime(2022,2,20)
deltadatetime.timedelta(1)#设定日期的间隔
datesmpl.dates.drange(start,stop,delta)#
返回浮点型的日期序列这个是生成时间序列同理如果是将序列转成日期呢
#存在两个问题一个是坐标轴没有按照日期的形式去标注另一个是刻度的数量和位置也不合适
figplt.figure(figsize(24,12))#调整画图空间的大小
plt.plot(dates,data,linestyle-,marker*,cr,alpha0.5)#作图
date_formatmpl.dates.DateFormatter(%Y-%m-%d)#设定显示的格式形式
ax.xaxis.set_major_formatter(date_format)#设定x轴主要格式
ax.xaxis.set_major_locator(mpl.ticker.MultipleLocator(30))#设定坐标轴的显示的刻度间隔
fig.autofmt_xdate()#防止x轴上的数据重叠自动调整。
图中可以明显的看出聊天的数据量随时间的变化而变化消息数量呈显波动的趋势。
12月份左右数据量明显较少。
表格中列出了数据量最多的5天和最少的5天最多的一天是2021年8月28日这一天刚好我我去武汉上学在火车上所以发的消息较多发了804条。
最少的是2021年7月22日这一天只发了4条聊天记录查看了一下改天4条聊天记录都是我发的那天确实是特殊情况具体什么情况宝宝应该知道一共306天每天都有聊天记录。
content[createTime].values[0]//1000#除以1000用以剔除后三位0c
content[content].values[0]chat_time.append(t)chat_content.append(c)def
str(chat_content[i])))statistic[j]
{}\n............\n.format(end-start))
可以将自己想要了解的词汇输入上去然后就能得出一共发了多少条这样的词汇本文中可以看到晚安一共有645条一共大概300天的时间可以看出几乎每天每个人都发了晚安。
宝宝也有627次聊吃饭的话题也挺多的哈哈哈发了1674次说明聊天的氛围还是蛮开心的嘿嘿
codecs.open(stopwords_filename,
因为是和女朋友的聊天记录所以我采用了粉粉的心形作为词云的底层图案似乎更加好看而且怀念呢。
我们可以看到上面两幅图词云图都可以看出晚安、回来、吃饭、亲亲等词比较明显的出现在图上看的越清晰说明改词出现的频率越高在边上也有些关于工作家庭生活的话题几乎覆盖了所有的聊天话题。
因为时间比较有限除了本文的一些分析外还可以对数据进行预测建模就是对女朋友的聊天记录的词汇进行预测预测未来女朋友的一些聊天词汇或者说心情的变化。
也可以借助机器学习或者人工智能的手段对数据进行挖掘通过判断心情词汇可以更好的知道如何回女朋友的消息才能让女朋友更开心。
本文就到此结束了欢迎大家继续往后面进行研究。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback