今天突发奇想,想知道对于这样的大模型,其底层这么海量的训练数据的存储方式和模型是一个什么样的方式?是否会用到数据库,如果用到又是使用了那种类型的数据库呢?在如此火爆的情况下,对于数据库此类基础软件是否可用借着这个东风在火一把呢?就像当年借助与LAMP,让MySQL在互联网时代迅速成为当红明星。

为什么会有这个想法,因为最近大家都在关注裁员,放弃国内市场的消息(传言),作为国内开源专注于数据库的infra公司,其无论时在技术领域还是在资本领域都可谓时国内的风向标。从知乎上的讨论也看到,国内此类公司在最近几年似乎过得并不理想,尤其时在疫情期间。这几年虽然较多的初创公司涌现,但是对于整个资本市场或者产品角度来说,很多都是AP类,而AP类在整个市场上太卷了(从去年也参与了公司PreA过程中与资本的访谈了解一些信息)。而对于从事TP类的初创公司,其产品是否可用经受检验,对于很多核心业务来说,从业务方其会抱有很大的疑惑,从知乎上有人说其在BJ银行业务中丢了数据了。同样也听到在ZX银行的业务中也丢了数据。对于产品诞生时间较短,没用经过长期项目验证,似乎总给人不放心。

从传统数据库达梦金仓这几十年的产品打磨周期来看,对于初创类的数据库公司似乎想要在市场上分得一份,还有很长的路要走。在另一方面,对于数据库此类的属于需要长期且大量资本和人才投入的赛道来说,资本是否有足够的耐心陪伴成长也是一个大大的问号?毕竟资本需要回报,他们也不是慈善机构。同时还需要面临着阿里,腾讯,华为这些背靠大厂的数据库团队的竞争压力。无论从那个方面看似乎初创公司都不占有优势,即使有优势的话,这些大厂可用动用大量的资源快速抹平他们与你之间的劣势。

从这几个方面来看,资本如果不在看好国内这个领域,那么对于我们数据库从业者来说时一个坏消息,因为整个大环境会影响到我们每一个行业内人员。没用繁荣的行业环境,那么最惨的就是行业内的人员,将会非常的内卷,毕竟工工作机会变少(虽然这些年数据库内核开发机会多了很多)。还是希望这个行业可用慢慢的发展的更好(毕竟还有国产化这个市场,;-) )。

下面是我问了在他们底层是否用到数据库,如果用到又使用了哪些类型的数据库的对话。

——————————————–

问:你底层用的什么数据库来存储你的训练数据和中间结果?

作为一名AI模型,我是由所构建的,在我的底层并没有使用单一的数据库来存储我的训练数据和中间结果。相反,我的训练数据和模型参数被存储在一组高效的、分布式的文件系统中。这些文件系统被设计为能够容纳海量数据,同时具有高可靠性和高性能。

具体来说,我的底层存储系统使用了多种不同的技术和工具来完成不同的任务。例如,我的训练数据通常被存储在分布式文件系统中,如 File (HDFS)或 S3。而我的中间结果和模型参数则可能被存储在NoSQL数据库中,如或。此外,我还会使用各种缓存技术,如Redis或,来提高数据访问的速度和性能。

总的来说,我的底层存储系统是一个高度复杂的、由多个不同技术和工具组成的系统,它被精心设计来满足大规模机器学习的需求。

问:有使用关系数据库吗?

我的底层存储系统中,关系数据库并不是主要的存储方式,因为关系数据库在大规模机器学习任务中往往不能满足高可扩展性和高吞吐量的需求。但是,在某些特定情况下,关系数据库可能仍然是有用的。

例如,当需要存储少量、结构化的元数据时,关系数据库可以提供比分布式文件系统更快的数据读写速度。此外,在某些情况下,关系数据库也可以用于存储模型参数和其他小规模的数据。

但是需要注意的是,如果我的使用场景需要处理大量的非结构化数据,或需要进行大规模的数据分析和机器学习,那么关系数据库往往并不是最好的选择。在这种情况下,更适合的存储方案可能是分布式文件系统、NoSQL数据库、缓存技术等。

在线查询数据库_chatgpt 数据库查询_π数据库查询

问:有用到mysql或者是吗?

虽然我的底层存储系统没有采用关系型数据库作为主要的存储方式,但是MySQL和这两种关系型数据库在某些场景下仍然可以发挥重要作用。

例如,当需要存储少量的结构化数据时,MySQL和可以提供较快的读写速度,并且它们的数据模型和SQL语言非常成熟,具有很好的可扩展性和稳定性。此外,它们还支持高可用性和容错性的功能,能够保证数据的安全性和可靠性。

因此,如果我的使用场景中存在需要使用关系型数据库的需求,那么MySQL和都是非常可靠的选择。但需要注意的是,在大规模的机器学习任务中,分布式文件系统和NoSQL数据库等其他技术仍然更适合作为主要的存储方式。

问:关系数据库作为你主要的存储方式时有什么优缺点?

作为AI模型,关系数据库并不是我的主要存储方式,因为在大规模机器学习任务中,它们往往不能满足高可扩展性和高吞吐量的需求。但是,在某些特定情况下,关系数据库仍然可以作为一种有用的存储方式。

下面是关系数据库作为主要存储方式时的优缺点:

优点:

数据结构化:关系数据库使用表格形式存储数据,具有清晰的结构和良好的组织方式,容易进行查询和分析。

数据一致性:关系数据库提供ACID事务,保证了数据的一致性和可靠性。

数据安全:关系数据库提供了完善的访问控制和安全管理机制,可以确保数据的安全性。

缺点:

可扩展性有限:关系数据库的可扩展性相对有限,当数据规模增大时,需要投入更多的硬件资源来支持。

读写性能有限:由于需要进行数据的结构化和关联查询,关系数据库在读写大量非结构化数据时性能较差。

昂贵的维护成本:关系数据库需要付出昂贵的维护成本,包括硬件设备、数据库管理员、软件许可等方面的费

(这里似乎被限流了,提示网络问题 🙁 )