就在大语言模型凭借ChatGPT及众多同类成果而引起轰动的同时,另外一波即将到来的AI浪潮也已悄然兴起,这就是大数据库模型。
大数据库模型(LDM)使用的是另一类主要数据源,即企业数据库,旨在对大语言模型做出补充。与大语言模型不同,大数据库模型不再局限于书籍、文档和网络上的人类写作文本,而更多依托于企业中的表格形式数据。
由于并非利用人类语言训练而成,大数据库模型无法支持聊天机器人,但却学习并掌握了大量基于数据记录和交易日志的知识与模式。那么,这种全新模型类型到底具备哪些功能?下面我们将通过综述与具体示例加以说明,包括大数据库模型如何为瑞士历史最悠久的私营保险公司Swiss Mobiliar提供预测性AI支持。
发掘隐藏在数据库中的价值
在IBM旗下的著名Thomas J. Watson研究中心,一支创新团队在开发大数据库模型方面正处于领先地位。
与大语言模型所需要的海量书面文本一样,企业数据库也代表着庞大的信息量,堪称一座事实与事件的宝库:每笔明确记录的购买、交易、点击、信用申请、客户资料以及业务记录都被囊括于其中。不同于大语言模型强调特定数量单词背后的含义,大数据库模型更多关注数据库中各项数字的价值——例如从客户记录中解析出客户位置、购买历史以及表现出的偏好倾向。
如此一来,大数据库模型得以实现一类新功能:基于含义的数据库搜索,又称语义查询。传统上,数据库查询操作必须以清晰明确且受到约束的形式发出,所谓约束就是为数值设置特定范围。例如,“列出所有居住在加利福尼亚州、年龄超过40岁且开销少于2000美元的客户。”但有了大数据库模型,我们可以直接要求数据库“列出与Jane Doe购买习惯最相似的所有客户”或者“列出客户购买习惯与底特律最相似的所有其他城市”。
语义查询的用例比比皆是。哪种食物在营养成分方面与裹着太妃糖的杏仁相似(答案:燕麦片)。当前这类客户还可能购买哪些其他产品?哪些交易活动偏离了常态,因此有欺诈嫌疑?与“TJ Watson Research”拥有相同含义的其他说法还有哪些,注意不包括“James Watson”(双螺旋的共同发现者)、“John Watson”(福尔摩斯的好伙伴华生)或者“IBM的Watson DeepQA”(击败人类 Jeopardy!冠军的计算机)?
IBM已经在研究实验室中打造出一套大数据库模型,并将其纳入名为Db2 SQL Data Insights的产品当中。该产品属于蓝色巨人z/OS操作系统上Db2数据库的组成部分,这套整体系统也成为众多机器学习方案的实时部署基础。
下面我们再来看一个经过验证的案例研究。
保险销售:大数据库模型真实用例
Swiss Mobiliar强调以个性化方式处理销售事务。与欧洲的其他保险销售机构一样,整个流程往往比美国的销售思路(美国的保险销售大多通过网络平台完成)更依赖线下人员。也就是说,欧洲的核心销售策略往往掌握在人的手中。在销售人员提出保险报价之前,他们需要手动编写报价,想办法提高客户接受条件、签订合同的概率。
如今将相关指标输入预测AI,大模型就能给出相应的签单几率。比如对于一份给定的草拟报价和一位潜在客户,对方签约的几率是多少?根据问题的答案,销售人员可以重新调整报价以迎合客户喜好。为了进一步提高成功率,销售人员可以选择更为激进的保险方案或者定价,甚至考虑在某些情况下提供特殊折扣,而后通过预测AI系统分析新报价、重新计算成功概率。如此一来,员工就能够反复试验以寻求价格与潜在成功率之间的平衡点。
通常,这样的预测AI项目需要经验丰富的机器学习专家的大量参与,并经历漫长的项目生命周期以定义需求、准备数据、训练模型、评估模型并最终将其集成起来以待部署。
但Swiss Mobiliar明显另有打算,他们希望找到一条更快的企业价值实现之路。
高级分析的交钥匙方案
作为IBM Db2数据库解决方案的忠诚用户,Swiss Mobiliar数据倡导者Thomas Baumann决定让他的团队尝试使用SQL Data Insights来完成整个项目。他在采访中表示,“我们的目标是提供完全符合客户需求的报价,而不仅仅在于借助机器学习方法进行大规模调查。我对这种可能性充满期待,即无需聘请高级数据科学家、仅凭团队内的数据库技术人员来实现这个目标。”
Baumann意识到,SQL Data Insights内置的查找“类似”记录功能是一种新的SQL能力,能够帮助用户轻松完成这类预测性AI项目(以及其他使用聚类、又称无监督机器学习的项目,Baumann的团队在其他一些项目中就有用到这项技术)中95%的工作。
其工作原理如下:给定一份定义当前情况的数据库记录(对于Swiss Mobiliar的项目而言,即潜在的保险投保人与待商议报价),只需提取相似度最高的先前案例并计算出相应的销售成功概率,就能得出比较可靠的预测结论。
数据科学家们将这种方法称为k-最近邻,这是一种历史悠久的经典机器学习解决思路。“最近邻”是指找到最接近当前情况的先前案例,即最相似的案例。与大多数其他机器学习方法不同,这种方法不需要对模型进行训练。相反,可以准备一套精心挑选以备随时使用的历史案例数据集,每次需要对新案例进行预测时系统都会从中提取相似度最高的记录。