就在大语言模型凭借ChatGPT及众多同类成果而引起轰动的同时,另外一波即将到来的AI浪潮也已悄然兴起,这就是大数据库模型。

大数据库模型(LDM)使用的是另一类主要数据源,即企业数据库,旨在对大语言模型做出补充。与大语言模型不同,大数据库模型不再局限于书籍、文档和网络上的人类写作文本,而更多依托于企业中的表格形式数据。AI新浪潮:聊聊正在兴起的大数据库模型

由于并非利用人类语言训练而成,大数据库模型无法支持聊天机器人,但却学习并掌握了大量基于数据记录和交易日志的知识与模式。那么,这种全新模型类型到底具备哪些功能?下面我们将通过综述与具体示例加以说明,包括大数据库模型如何为瑞士历史最悠久的私营保险公司Swiss Mobiliar提供预测性AI支持。

发掘隐藏在数据库中的价值

在IBM旗下的著名Thomas J. Watson研究中心,一支创新团队在开发大数据库模型方面正处于领先地位。

与大语言模型所需要的海量书面文本一样,企业数据库也代表着庞大的信息量,堪称一座事实与事件的宝库:每笔明确记录的购买、交易、点击、信用申请、客户资料以及业务记录都被囊括于其中。不同于大语言模型强调特定数量单词背后的含义,大数据库模型更多关注数据库中各项数字的价值——例如从客户记录中解析出客户位置、购买历史以及表现出的偏好倾向。

如此一来,大数据库模型得以实现一类新功能:基于含义的数据库搜索,又称语义查询。传统上,数据库查询操作必须以清晰明确且受到约束的形式发出,所谓约束就是为数值设置特定范围。例如,“列出所有居住在加利福尼亚州、年龄超过40岁且开销少于2000美元的客户。”但有了大数据库模型,我们可以直接要求数据库“列出与Jane Doe购买习惯最相似的所有客户”或者“列出客户购买习惯与底特律最相似的所有其他城市”。

语义查询的用例比比皆是。哪种食物在营养成分方面与裹着太妃糖的杏仁相似(答案:燕麦片)。当前这类客户还可能购买哪些其他产品?哪些交易活动偏离了常态,因此有欺诈嫌疑?与“TJ Watson Research”拥有相同含义的其他说法还有哪些,注意不包括“James Watson”(双螺旋的共同发现者)、“John Watson”(福尔摩斯的好伙伴华生)或者“IBM的Watson DeepQA”(击败人类 Jeopardy!冠军的计算机)?

IBM已经在研究实验室中打造出一套大数据库模型,并将其纳入名为Db2 SQL Data Insights的产品当中。该产品属于蓝色巨人z/OS操作系统上Db2数据库的组成部分,这套整体系统也成为众多机器学习方案的实时部署基础。

下面我们再来看一个经过验证的案例研究。

保险销售:大数据库模型真实用例

Swiss Mobiliar强调以个性化方式处理销售事务。与欧洲的其他保险销售机构一样,整个流程往往比美国的销售思路(美国的保险销售大多通过网络平台完成)更依赖线下人员。也就是说,欧洲的核心销售策略往往掌握在人的手中。在销售人员提出保险报价之前,他们需要手动编写报价,想办法提高客户接受条件、签订合同的概率。

如今将相关指标输入预测AI,大模型就能给出相应的签单几率。比如对于一份给定的草拟报价和一位潜在客户,对方签约的几率是多少?根据问题的答案,销售人员可以重新调整报价以迎合客户喜好。为了进一步提高成功率,销售人员可以选择更为激进的保险方案或者定价,甚至考虑在某些情况下提供特殊折扣,而后通过预测AI系统分析新报价、重新计算成功概率。如此一来,员工就能够反复试验以寻求价格与潜在成功率之间的平衡点。

通常,这样的预测AI项目需要经验丰富的机器学习专家的大量参与,并经历漫长的项目生命周期以定义需求、准备数据、训练模型、评估模型并最终将其集成起来以待部署。

但Swiss Mobiliar明显另有打算,他们希望找到一条更快的企业价值实现之路。

高级分析的交钥匙方案

作为IBM Db2数据库解决方案的忠诚用户,Swiss Mobiliar数据倡导者Thomas Baumann决定让他的团队尝试使用SQL Data Insights来完成整个项目。他在采访中表示,“我们的目标是提供完全符合客户需求的报价,而不仅仅在于借助机器学习方法进行大规模调查。我对这种可能性充满期待,即无需聘请高级数据科学家、仅凭团队内的数据库技术人员来实现这个目标。”

Baumann意识到,SQL Data Insights内置的查找“类似”记录功能是一种新的SQL能力,能够帮助用户轻松完成这类预测性AI项目(以及其他使用聚类、又称无监督机器学习的项目,Baumann的团队在其他一些项目中就有用到这项技术)中95%的工作。

其工作原理如下:给定一份定义当前情况的数据库记录(对于Swiss Mobiliar的项目而言,即潜在的保险投保人与待商议报价),只需提取相似度最高的先前案例并计算出相应的销售成功概率,就能得出比较可靠的预测结论。

数据科学家们将这种方法称为k-最近邻,这是一种历史悠久的经典机器学习解决思路。“最近邻”是指找到最接近当前情况的先前案例,即最相似的案例。与大多数其他机器学习方法不同,这种方法不需要对模型进行训练。相反,可以准备一套精心挑选以备随时使用的历史案例数据集,每次需要对新案例进行预测时系统都会从中提取相似度最高的记录。

传统上,k-最近邻需要配合专门的方法以衡量数据库记录之间的“相似性”或者“接近性”,而这项工作往往必须由专家手动完成、充分考量每条记录中各项值的含义及其实际对应的重要程度。客户的年龄更重要,还是其居住地点/地区更重要,或者说历史收支记录才是最核心的决定因素?

大数据库模型为此提供了前所未有的便捷解法。作为能够快速建立相似性指标的交钥匙工具,大数据库模型消除了对数据专家的硬性需求、让每个人都能针对需求为“最近邻”设置定制化区间。

推出预测销售工具

Baumann的团队在1500万条汽车保险报价数据中实施了这种方法,这每一条记录都涉及数十个属性,包括人口统计、车辆数据、免赔额和保险价格。经过反复试验,团队发现43就是最理想的黄金比例:通过提取与当前案例“最相似”的43个历史案例并配合微观记录核算报价,就能让投保成功率达到峰值。

接下来是部署流程。Baumann和他的团队将预测结果添加到销售团队的操作界面当中,这样该界面就能给出每条待选报价的成交可能性。数百名销售人员会积极使用这项功能,通过查看针对每位潜在投保人的多条候选报价成功率,最终选择最合理的价格区间并据此形成实际保单方案。

更契合客户心理的报价也带来了显著的销售增长:在短短六个月内,该公司的成交量就增长了7%,而以往这样的增幅往往需要两年才能达成。正如大家想象的那样,Baumann已经在积极寻求将SQL Data Insights纳入其他项目的可行计划。

2024年11月,Baumann在机器学习周活动上介绍了该项目的成功经验,发表题为《Swiss Mobiliar数据库内置机器学习支持的保险报价建议》的演讲。他随后又登上MLW 2025大会的舞台,通过更加直观的类比阐释了大数据库模型背后的价值主张。

这是一片崭新的天地。大数据库模型带来的一系列新功能,完全可以作为对大语言模型服务定位的补充。如同大语言模型依托文本进行训练以帮助非技术人员实现能力增强一样,大数据库模型在企业数据库之上接受训练,真正让不具备数据科学背景的普通数据库用户也能将数据资源转化成拓展业务的有力武器。