联通知识库 -LLM 大模型 交流 东方国信 当前 LLM 大模型应用进展 运营商 发布的大模型名称 大模型的应用领域 (如政企、客服、大数据等) 在该领域的应用描述 应用进展 移动 九天 · 海算政务大模型 支撑移动政企在智慧城市、数字 政府项目,如 12345 热线智能问答 等。 拟在数字政府方面,进行全流程深层赋能,助力政府为百姓 提供更加便捷和智能的政务服务,提升政府社会治理的智能 化水平。 目前了解到, 2022 年黑龙江移动中 标黑龙江数字政府项目,由中移在 线某省分公司专门承接集团各省数 字政府集成项目。大模型在黑龙江 项目正推进大模型结合使用的规划。 九天 · 客服大模型 融合知识库 / 智能接续助手 / 内部数 字化服务台( ITSM ) ①中移在线本年承接并启动移动集团知识库融合工作,通过 大模型技术实现多渠道知识库统一制作、统一发布、统一表 达的问题。 ②智能接续助手(即智能客服助理)目前正在提案中,暂无 实质内容,预计在融合知识库进入建设后会启动;主要解决 人工座席流动性大、培训成本高的成本问题,通过大模型对 新座席形成有效工作指导和辅助。 ③信息系统部对所管理 57 个软件的日常运维客服进行尝试, 拟通过大模型构建软件运维知识库,通过内部智能问答的能 力替代大量内部客服形成降本。 ①融合知识库立项完成。 ②接续助手规划立项。 ③内部智能问答规划立项。 均暂无实质应用成果。 电信 TeleChat 大模型 数据中台 ①内部数据中台使用,因不了解具体落地应用,暂无描述; ② TeleChat 大模型在内部使用的同时,构架同时考虑与千行 百业的信息化解决方案进行融合,在诸多行业实现商业化落 地。 明确由中国电信数字智能科技分公 司(电信智科)全面统筹建设,目 前暂无准确进展消息。 智能客服 ①电信集团目前客服未进行完整集约,以集团建设后,各省 自主选用。目前内部使用集中在智能客服助理、智能推荐、 智能语音导航三个方向; ② eleChat 大模型在内部使用的同时,构架同时考虑政务、金 融、医疗、教育四个板块为主的客服赋能。 智慧政务 5G 消息为主。为政务客户提供政务短信智能化多轮问答,进 行行业领域的基础语言模型训练和领域问答能力微调,实现 政务短信的智能化处理。 几个应用 方向 市场营 销服务 • 中国移动 App : 打造 AI 营业员 ,实现重点业务 AI 导购等功能, 中移在线计划 10 月份 对外发布 • 客服平台: 探讨如何利用九天、 LLM 各自的优 势共同支撑 10086 客服平台升级 的规划方案 个人市 场应用 • 5G 新通话: 打造 AI 助理 ,实现通话纪要生成、 待办事项提炼等功能 • 中移互计划 9 月份 率先试点上线 家庭市 场应用 • 智慧家庭场景: 打造面向一老一小的大屏 AI 管 家 ,包含家庭视听娱乐、互动教育、健康顾问、 数字社区等场景 • 杭研计划 10 月份 与讯飞联合发布家庭大模型 新兴市 场应用 • 视频彩铃: 打造基于大模型的 视频彩铃助手 , 形成新的用户玩法及活跃入口,实现视频彩铃 全新的生产运营模式 • 已经输出大模型视频彩铃演示 Demo IT 支撑 保障 • IT 支撑场景: 打造 AI 员工 ,助力 办公智能化、 IT 系统研 发及运维效率升级,降本增效 • 信息技术中心计划 8 月份 试点上线大模型开发平 台, 10 月份 试点上线垂类大模型(代码大模型) 新兴市 场应用 • 元宇宙消费场景: 打造咪咕咖啡 AI 店员 ,实现 自然交互、自动售卖 • 咪咕公司计划 8 月份 试点上线咖啡机数字人 客服应用 方向 大模型核心功能 Ø 安全审核: 针对用户输入内容和大模型输出内容做安全审核,保证 内容安全、健康。 Ø 意图识别: 大模型判断用户意图,根据不同意图进行分发,提升用 户意图识别准确性。 Ø 复杂业务办理: 针对手机、套餐购买等复杂场景,大模型通过多轮对话收 敛用户意图,提供更精准的产品推荐。 Ø 商品解读: 大模型获取商品信息,针对一个或多个商品进行分析,帮 助用户轻松获取商品关键信息。 Ø 数字生活: 大模型通过插件生态,实现查询、订购等生活服务业务。 Ø 营销导购: 通过与客户的实时对话,敏锐捕捉客户对商品或服务的需 求,并辅助智能推荐。 落地过程中遇到的几个 挑战 向量数据库 Langchain GPT 知识库 简要介绍 存储和处理向量 自然语言处理 生成自然语言文本 存储知识 功能 存储和检索向量 解析和理解语言 生产自然语言问答 存储和提供知识 输入 向量 自然语言文本 自然语言提示 查询语句 输出 相关向量 解析后的语义 自动生成的文本 相关知识 工作流程 1 、存储向量 2 、检索相似向量 1 、解析语言 2 、提取信息 3 、理解语义 1 、接收提示和输入 2 、生成自然语言文本 1 、存储知识 2 、提供查询接口 例子使用场景 推荐系统 问答机器人 文章 / 作文生成 百科类网站 / 行业网站 具体实现方式 向量索引库 自然语言处理模型 语言模型 数据库系统 / 业务知识库 主要技术要点 向量化、相似度计算 语言解析和分析 语言生成和推理 知识表示和查询 相关应用领域 搜索、推荐系统 问答机器人 文本生成、对话系统 百科、大数据等 互相应用和补充点 提供相似向量搜索 提供语义理解和分析 提供生成文本能力 提供知识存储和检索能力 Ø 可信性、准确性 Ø 算力及持续 自优化 知识库的落地具体需求( 1/5 ) p 1 、知识问答包含文本、表格,涉及表格问答的该如何解决 当前能力验证水平: Ø word,html 表格效果优于 OCR 表格 Ø ocr 表格打开后定位困难 可选包系统名 月功能费 政策内容 短信订购代 码 流量说明 生效规则 5 元假期国内流 量包 5 元 月功能使用费包 含国内 ( 不含港 迎台 ) 手机上网 流量 (1X,3G,4G) 100M 订购立即生效, 当月按天折算费 用及流量, 8 月 31 日自动失效,提 前退订月底失效 编辑 2015XYLLB0 5 到 10001 10 元假期国内 流量包 10 元 月功能使用费包 含国内 ( 不含港 澳台 ) 手机上网 流量 (1X,3G,4G) 200M 订购立即生效, 当月按天折算费 用及流量, 8 月 31 日自动失效,提 前退订月底失效 编辑 2015XYLLB1 0 到 10001 n 示例:表格模型 2 “ 对象 - 层次属性 - 内容 ” 模型 推进 思路: Ø 六种表格模型,先确定属性再打开 表格 • 对象 - 属性 - 内容 • 对象 - 层次属性 - 内容 • 无对象 - 主属性 - 内容 • 无对象 - 主属性 - 层次属性 - 内容 • 场景 - 主属性 - 行动 • 类别 -FAQ- 答案 知识库的落地具体需求( 2 /5 ) p 2 、文档结构化:红头文件转多媒体知识思路 当前能力验证水平: Ø 归纳制定分层 - 分级对应 模板 Ø LLM 大模型按对应模板抽取 - 智能 采编 推进 思路: Ø 联通知识原子化已具备基础; Ø 建议在原子化之上进行工程层级构建(模板) Ø 多媒体知识:①按层级调用(向量检索); ② LLM 大模型辅助表达 知识库的落地具体需求( 3 /5 ) p 3 、知识问答如何尽量从原文提取内容,以保证回复内容的准确性 当前能力验证水平: Ø 可由原文提取 FAQ ,但准确率不足(约 50% ) 推进 思路: Ø 加大【提示工程】投入,制定标准可控 流程; Ø 引入 LangChain 技术 p GPT 本质上是 “ 生成自然语言问答 ” ,输出的结果更多为建议、辅助,需要 有一层可信性保证的中间层进行过滤加工; p 目前的 GPT 都会有一个问题 —— 事实问题错误,也常被称之为幻觉 p Langchain 底层技术是基于区块链技术 , 是对大语言模型生成潜在有害或违 反政策内容的演示进行过滤的一种系统。开发基于语言模型的应用程序开发 框架。总的来说, LangChain 是一个链接面向用户程序和 LLM 之间的一个中 间层。 p 运营商行业的特点,要求保证的事实合法性,仍然在底层需要人工进行知识 积累和过滤拦截。 知识库的落地具体需求( 4 /5 ) p 4 、 知识智能文档审核思路 ; 当前能力验证水平: Ø 未进行智能文档 审核 Ø 目前仅在【历史文件比对】项目中有类似 训练 推进 思路: Ø 建议短期内容仍由人工进行最终 审核; Ø 同时收集审核纠错训练集,并标注纠错 原因; Ø 在【提示工程】 -prompt 中推进该类 验证 Ø 优先级 靠后 p prompt : 输入给 AI 模型的文本片段,它通常包括一个问题或任务描述,以及必要的上下文信息,这个输入被用来引导 AI 模型生成 一个相应的输出 ; p 提示工程的关键步骤包括: • 确定需求和目标:明确需要实现的功能和目标,以及用户的需求和使用场景。 • 设计提示信息的结构:根据需求和目标,设计提示信息的结构和内容。 • 收集数据和样本:收集相关的数据和样本,用于训练模型和测试效果。 • 训练模型:使用机器学习或深度学习算法,对数据进行训练,建立模型。 • 优化模型参数:通过调整模型参数,优化模型的性能和准确度。 • 集成到应用程序中:将训练好的模型集成到相应的应用程序中,并进行测试和调试。 • 部署和维护:将应用程序部署到生产环境中,并定期进行维护和更新。 知识库的落地具体需求( 5 /5 ) p 5 、 模型微调的经验分享,能在有限的领域数据集上达到模型能很好的学习效果并回答。 质量标定中心升级为 RLHF 训练中心,全面围绕为客服大模 型提供高质量标定数据的目标设计该中心组织架构和工作流 程 RLHF 训练中心 话务黑匣子 知识自学习 进一步减少知识制作步骤,不再区分场景,全面放开大模 型知识自学习能力,在前期积累的业务理解基础上,大模 型能够更好地更全面地处理多渠道、多维度海量数据,并 明确编排优先级和侧重点,提取对应知识 新增 Prompt (提示编程)中心,在同一个大模型基础上, 通过 prompt 编程,建立不同会话里具备不同形象和人格的 多种数字员工,并建立与不同性格、性别、年龄层段、职业 等用户画像的对话模式,全面提供个性化知识服务模式 Prompt 中心 数字员工客服全覆盖 将智能客服、客服助理和数字员工合并为数字员工客服, 全面接手客服对话、聊天、咨询等渠道,实现客服全自动 化处理 将原有日志系统和话务分析整合成为话务黑匣子,完整记录 客服话务数据本身,以及用户在接受客服服务过程中的情绪、 语气、表情等多维度信息。 将知识库升级为知识大脑,不但要存储知识的文本、图片、 音视频等原形态,也要存储知识在高维空间的表征特征向量, 以便为上层提供更加高效和强大的向量级检索 知识大脑 组建训练中心、 PROMPT 中心: Ø 业务 牵头 Ø 业务场景落地 - 贯穿 - 闭环 Ø 业务知识库支撑 - 优化 - 更新 知识库的落地具体需求( 5/5 ) - 文本机器人关键场景验证 n 步骤一:客户提供知识文档 n 步骤二:文档导入并发布 n 步骤三:文档搜索 问题输入 答案总结推荐 答案相关内容出处 优先在提供文 档中总结归纳 答案进行推荐 结合大数据进 行答案推荐 p 热门问题检索结果 序号 问题 LLM 推荐答案 备注 1 机顶盒故障报错 30007 如 何处理 机顶盒故障报错 30007 的处理方法如下: 1. 确认机顶盒串码和账号是否与工单一致,如果不一致,请进行故 障换机。 2. 如果一致,需要提供四张图片为证:施工 APP 机顶盒串码截图、机顶盒设置界面串码截图、设备 背面串码照片、报错 30007 界面照片(企宽无法提供施工截图,需提供前台下单界面串码截图)。联系综调 人员处理。 结合文档给出答案 2 宽带拨号错误代码 678 如 何处理 宽带拨号错误代码 678 通常表示远程计算机没有响应。您可以尝试以下方法来解决这个问题: 1. 检查您的网 络连接是否正常,确保您的调制解调器和路由器都已打开并正常工作。 2. 检查您的电缆是否插好,确保所有 线路都正确连接。 3. 重启您的调制解调器和路由器,然后再次尝试连接。 4. 如果以上方法都无法解决问题, 请联系您的网络服务提供商以获取更多帮助。 结合文档给出答案 3 光纤链路每米衰耗值 光纤链路每米衰耗值取决于多种因素,例如光缆类型、连接器类型、长度和环境等。一般来说,光缆的衰减 值为 0.5dB/km 至 1.5dB/km 。如果您需要更具体的信息,请提供更多细节,例如您使用的光缆类型和长度 等。 文档无参考,结合大数据给出答案 4 法兰接头衰耗 值 法兰接头衰耗值是指在光纤通信中,由于连接器的接触不良或者接触面积过小等原因,导致光信号在通过连 接器时发生衰减的现象。根据网友提供的信息,活接头(法兰)的衰耗值应该小于等于 0.4dB ,熔接头的衰 耗值应该小于等于 0.02dB 。 文档无参考,结合大数据给出答案 5 1:8,1:4,1:16 分光器衰耗值 分光器的损耗值取决于不同的类型和规格。以下是一些常见的分光器损耗值: - 1:2 分光器衰减为 3.01 dB ; - 1:4 分光器衰减为 7.2 dB ; - 1:8 分光器衰减为 10.5 dB ; - 1:16 分光器衰减为 13.5 dB ; - 1:32 分光器衰 减为 16.5 dB 。 文档无参考,结合大数据给出答案