用深度学习把句子变成“一串数字”

01从“词袋”到“低维语义向量”

传统文本相似度算法,先把句子拆成词,再把词映射成向量,最后累加或拼接。

DSSM(Deep Structured Semantic Models)却换了一条路:它直接把整句扔进深度网络,输出一个固定维度的低维语义向量,两句话的“亲密度”就靠这两个向量在空间里的距离说了算。

02DSSM到底怎么“炼”出来的?

2.1 > 架构拆解:五层“压路机”

    Term Vector:把文本做One-hot,维度≈50万,稀疏又庞大。

    Word Hashing:用3-gram把单词切成小片,再把“#-b-o, b-o-y, o-y-#”这类trigram拼回去,50万→3万,空间瞬间瘦身,还能把前缀、后缀的语义“打包”进同一个向量。

    Multi-layer nonlinear projection:三层DNN继续压榨维度,3万→300→128,把语义浓缩成128个数。

    Relevance:把Query的128维向量与每个Doc的128维向量做cosine,得到“一眼看上去像不像”的原始分数。

    Softmax:把原始分数归一化成0~1的概率,越接近1说明越像点击的文档。

2.2 > 训练“燃料”:海量点击日志

模型把“用户点了哪篇文档”当成标签,有监督学习让网络知道:当Query是“北京房价”,Doc里出现“首付300万”比出现“学区房”更值得被点击。

最终损失函数就是点击概率的对数似然,网络越“懂”用户,损失就越小。

03优点与痛点:一眼看穿DSSM

优点

无切词依赖:汉字向量可复用,外文也能直接上。

端到端有监督:拒绝中间环节的无监督误差,精度往往比传统方法高一个量级。

痛点

语序全丢:BOW模型把顺序洗成袋子,时态、上下文全糊在一起。

结果不可解释:黑箱模型,改一行参数可能让整体效果“上天”或“入地”。

弱监督信号:点击数据里掺着搜索排序的“私货”,第一页被点击≠内容真的相关,标签噪音大。

04小结:DSSM不是万能钥匙,却是深度学习的“开门红”

当你想把句子压缩成“一串数字”,再让这串数字替你说“我们像不像”,DSSM提供了一条经过验证的捷径。

它让文本相似度计算从“词袋+统计”跃迁到“深度语义嵌入”,也为后续BERT、GPT等模型提供了有监督微调的思路——先让人工标注少量数据,再用大模型把知识蒸馏出来。

原创文章,作者:郭峰,如若转载,请注明出处:http://m.gaochengzhenxuan.com/news/620.html

(0)
郭峰郭峰
上一篇 2026-02-01
下一篇 2026-02-01

相关推荐

  • 骁龙8 Elite Gen6 Pro曝光:不只拼性能,这一刀砍向发热和价格

    这代旗舰芯不是简单提速,而是想把“发热、掉帧、杀后台”这三个老毛病一次性掀桌重来,但代价是成本、供货和价格一起往上冲。这几年大家已经看明白一件事,跑分涨得再猛,日常体验不跟上,等于白忙。游戏一开十分钟开始降频,多任务一多就清后台,这些问题比参数更真实。这次高通

    2026-04-03
    426
  • 56岁刘若英近况曝光!嫁富商老公高龄生子,如今频繁开演唱会引热议

    近日,56岁“文艺天后”刘若英的近况再度引发全网关注。作为陪伴无数人成长的歌手、演员,她曾以《后来》《为爱痴狂》等经典作品深入人心,而褪去舞台光环后,她低调的婚姻生活与如今高频次的演唱会安排,也成为网友热议的焦点。提及刘若英的家庭,就不得不提她的富商老公钟石(...

    2026-04-03
    968
  • 鼎捷数智2025年营收破24亿,**AI**赋能产业数智升级,大客户签约额大增

    鼎捷数智股份有限公司(以下简称“鼎捷数智”)于4月1日晚间发布了其2025年年度报告,展现了AI技术在产业数智化升级中的强大驱动力。报告显示,公司2025年全年营收达到24.33亿元,其中非大陆地区营收12.85亿元,同比增长11.35%,创下新高。归母净利润

    2026-04-03
    341