用深度学习把句子变成“一串数字”

郭峰 • 2026-02-01 11:04 • 新闻 • 阅读 987

01从“词袋”到“低维语义向量”

传统文本相似度算法，先把句子拆成词，再把词映射成向量，最后累加或拼接。

DSSM（Deep Structured Semantic Models）却换了一条路：它直接把整句扔进深度网络，输出一个固定维度的低维语义向量，两句话的“亲密度”就靠这两个向量在空间里的距离说了算。

02DSSM到底怎么“炼”出来的？

2.1 > 架构拆解：五层“压路机”

Term Vector：把文本做One-hot，维度≈50万，稀疏又庞大。

Word Hashing：用3-gram把单词切成小片，再把“#-b-o, b-o-y, o-y-#”这类trigram拼回去，50万→3万，空间瞬间瘦身，还能把前缀、后缀的语义“打包”进同一个向量。

Multi-layer nonlinear projection：三层DNN继续压榨维度，3万→300→128，把语义浓缩成128个数。

Relevance：把Query的128维向量与每个Doc的128维向量做cosine，得到“一眼看上去像不像”的原始分数。

Softmax：把原始分数归一化成0~1的概率，越接近1说明越像点击的文档。

2.2 > 训练“燃料”：海量点击日志

模型把“用户点了哪篇文档”当成标签，有监督学习让网络知道：当Query是“北京房价”，Doc里出现“首付300万”比出现“学区房”更值得被点击。

最终损失函数就是点击概率的对数似然，网络越“懂”用户，损失就越小。

03优点与痛点：一眼看穿DSSM

优点

无切词依赖：汉字向量可复用，外文也能直接上。

端到端有监督：拒绝中间环节的无监督误差，精度往往比传统方法高一个量级。

痛点

语序全丢：BOW模型把顺序洗成袋子，时态、上下文全糊在一起。

结果不可解释：黑箱模型，改一行参数可能让整体效果“上天”或“入地”。

弱监督信号：点击数据里掺着搜索排序的“私货”，第一页被点击≠内容真的相关，标签噪音大。

04小结：DSSM不是万能钥匙，却是深度学习的“开门红”

当你想把句子压缩成“一串数字”，再让这串数字替你说“我们像不像”，DSSM提供了一条经过验证的捷径。

它让文本相似度计算从“词袋+统计”跃迁到“深度语义嵌入”，也为后续BERT、GPT等模型提供了有监督微调的思路——先让人工标注少量数据，再用大模型把知识蒸馏出来。

原创文章，作者：郭峰，如若转载，请注明出处：http://m.gaochengzhenxuan.com/news/620.html