
8月16日,由广东省首席信息官协会主办的第八届南方信息大会在广州盛大启幕。作为华南地区极具权威性与前瞻性的 CIO 年度巅峰盛会,本届大会汇聚 AI 领域顶尖学者、各行业头部企业 CIO 及全球领先大模型厂商,其中包括南航、华为、阿里、字节、美的、西门子等世界 500 强公司的 CIO,共同探讨 AI 时代 CIO 的挑战与机遇。

*华为董事兼质量流程 IT 总裁 陶景文

*美的集团首席信息安全官 刘向阳
探迹科技创始人兼 CTO、汉数科技创始人陈开冉受邀出席本次盛会,他以《大模型时代下的高质量数据云》为主题发表精彩演讲,与一众行业顶尖 CIO 嘉宾同台分享AI技术趋势,展现出卓越的行业洞察力与前瞻性思维。

*探迹科技创始人兼 CTO、汉数科技创始人陈开冉
作为本次主论坛首位演讲嘉宾,陈开冉深入剖析高质量数据集在 AI 发展进程中的核心价值,为大模型在千行百业的应用落地提供了清晰可行的 “数据破局” 路径,引发嘉宾的广泛关注与热烈反响。

01高质量数据集“高标号汽油”,为 AI 产业落地赋能
人工智能浪潮席卷全球,数据作为驱动 AI 发展的 “新石油”,其战略地位已毋庸置疑。而在陈开冉看来,高质量数据集更是如同 “高标号汽油”,直接决定 AI 模型性能与应用效果。
“人工智能已从‘以模型为中心’转向‘以数据为中心’,” 陈开冉引用吴恩达等学者的观点强调,“高质量标注数据是释放 AI 价值的关键,直接决定了大模型的应用效果与产业落地能力。只有经过深度治理、精准标注的高质量数据,才能让 AI 真正服务于产业实践。”

02高质量数据集解决“幻觉”,让大模型从“通才”变“专才”
尽管大模型技术日新月异,但其在产业落地中仍面临两大核心痛点,而高质量数据集正是破解这些难题的关键。
1.解决“幻觉”问题:以权威数据筑牢模型可信度
大模型本质是概率模型,“幻觉现象”(生成错误或无依据信息)成为其落地行业的重要障碍,尤其在缺乏专业数据支撑时更为凸显。陈开冉指出:“高质量数据集能为模型提供权威依据,从源头减少‘无中生有’的错误。” 通过专业领域的高质量数据集,可让大模型输出的信息有迹可循、有据可依。

2. 突破 “专业壁垒”:让大模型从“通才”进阶“专才”
通用大模型虽能应对基础问题,却在垂直行业的专业场景中 “力不从心”。陈开冉解释:“大模型在专业问题上的表现,高度依赖垂直行业领域数据。只有融入行业专识数据,大模型才能真正理解产业细节,给出有价值的答案。”
高质量数据集正是打通这一壁垒的核心 —— 通过注入行业知识、业务逻辑等专属数据,推动大模型从“全而不精”的“通才”,转变为“专而优”的“行业专家”。
03旷湖数据云构建大模型时代的高质量数据底座
面对大模型对数据的高要求,以及针对企业在数智化转型中 “数据整合难、调用难” 的痛点,陈开冉详细介绍了汉数科技推出的 “旷湖” 高质量数据集平台 —— 这一平台正是基于高质量数据云所必备的 “输入输出标准、数据质量高、适配大模型调用、高并发高性能、计费方式灵活” 五大核心能力构建,为企业的行业大模型训练和应用落地提供坚实的数据基础。

1、全场景数据生态:覆盖18大垂直领域的 “数据百科”
旷湖数据云整合了3.8亿+企业、25万+楼宇、30亿+商品等海量数据,覆盖工商企业、实体制造、零售门店、产业招商、宏观经济等18大垂直领域。通过统一数据标准、分级治理体系与实时质量监控,实现多源异构数据的高可信融合,为 AI 大模型提供 “权威可信” 的全场景数据供给。

2. “三段式” 对接:让数据获取从 “复杂开发” 到 “简单配置”
传统数据对接流程复杂、周期长,难以适配敏捷的 AI 开发需求。旷湖创新 “三段式数据对接” 模式,将数据获取简化为:创建数据对接器(配置基础信息,支持 API、文件等多形式)、筛选数据范围(利用上千个条件精准框定)、选择数据字段(在万级维度中自由勾选,实时计价交付),大幅降低企业数据获取门槛。
3. MCP 服务市场:打通大模型落地 “最后一公里”
当大模型开始“无所不能”,却卡在“最后一公里”,缺少连接内外部数据与工具的标准化方式。为解决大模型实时调用高质量数据的难题,旷湖利用多场景高质量数据集,通过 MCP 服务跨越大数据与大模型的鸿沟。

目前,旷湖数据云已与字节、阿里、百度等头部大模型厂商深度合作,并且上架火山引擎、百度千帆、阿里百炼、Github 等知名大模型平台,为企业提供更丰富的调用方式。

“我们希望通过高质量数据集,助力行业大模型解决幻觉问题,哪怕是在专业的应用场景中,也能给出令人满意的答案;同时积极拥抱各大模型生态,降低数据调用门槛,更好地适配大模型的应用场景。” 陈开冉总结道。
从“新石油”到“高标号汽油”,“通才”到“专才”,“数据孤岛”到“数据即服务”,汉数科技以旷湖数据云为支点,撬动大模型落地千行百业的无限可能。未来将持续拓展数据覆盖的广度与深度,携手合作伙伴构建开放共赢的数据生态,驱动产业新质生产力发展。
免责声明
本文转载自网络平台,发布此文仅为传递信息,本文观点不代表本站立场,版权归原作者所有;不代表赞同其观点,不对内容真实性负责,仅供用户参考之用,不构成任何投资、使用等行为的建议。请读者使用之前核实真实性,以及可能存在的风险,任何后果均由读者自行承担。
本网站提供的草稿箱预览链接仅用于内容创作者内部测试及协作沟通,不构成正式发布内容。预览链接包含的图文、数据等内容均为未定稿版本,可能存在错误、遗漏或临时性修改,用户不得将其作为决策依据或对外传播。
因预览链接内容不准确、失效或第三方不当使用导致的直接或间接损失(包括但不限于数据错误、商业风险、法律纠纷等),本网站不承担赔偿责任。用户通过预览链接访问第三方资源(如嵌入的图片、外链等),需自行承担相关风险,本网站不对其安全性、合法性负责。
禁止将预览链接用于商业推广、侵权传播或违反公序良俗的行为,违者需自行承担法律责任。如发现预览链接内容涉及侵权或违规,用户应立即停止使用并通过网站指定渠道提交删除请求。
本声明受中华人民共和国法律管辖,争议解决以本网站所在地法院为管辖法院。本网站保留修改免责声明的权利,修改后的声明将同步更新至预览链接页面,用户继续使用即视为接受新条款。