数据探索阶段的 3 个发现
=====================

发现 1：数据里混了大量 emoji，一共涉及至少 13 种
----------------------------------------------
我 `Counter` 了一下非中英文字符，500 条里有 88 条带 emoji，
出现过的有 ✨ 😡 💯 🤔 😭 😊 👎 🎉 🔥 ❤️ 👍 💔 🔥 🌶 等。
这些必须在清洗阶段干掉，不然 jieba 会把它们当成奇怪的 token。

发现 2：评论里有英文和拼音混用，而且有网络梗
-------------------------------------------
统计英文单词发现 "APP" 出现 18 次，"yyds" 10 次，
"hhh" 3 次，还有 "栓Q" 里的 Q 9 次。
另外中文里"踩雷""真香""破防了""绝了""蚌埠住了"这种网络梗非常多
（踩雷 31 次，真香 21 次）。这些没啥具体产品含义，后面得加到停用词里，
不然它们会挤进 Top20 影响分析。

发现 3：没有空行和重复行，但评论长度分布很不均匀
-----------------------------------------------
我发现 500 条全是非空的，也没有完全重复的评论。
但长度从最短 16 字到最长 41 字都有，平均 27 字。
短的太简略信息量少，长的一句话包含好几个特性（比如同时提屏幕和拍照），
后续统计特性词频时得按"词"来统计而不是按"整句归类"，不然会丢信息。
