按照元组描述的实体对其进行组织和查询处理是一种管理劣质数据的有效方法。考虑到同一个实体的同一属性存在多个描述值,因此基于实体的数据库上的连接是支持多个值的相似性连接。由于多表连接操作的连接顺序对连接性能有着重要的影响,...按照元组描述的实体对其进行组织和查询处理是一种管理劣质数据的有效方法。考虑到同一个实体的同一属性存在多个描述值,因此基于实体的数据库上的连接是支持多个值的相似性连接。由于多表连接操作的连接顺序对连接性能有着重要的影响,研究了实体数据库上多表连接顺序选择方法,采用基于实体的马尔可夫链蒙特卡洛(Markov chain Monte Carol,MCMC)方法估计出实体数据库的相似性连接操作的结果大小,并以连接结果大小和有无索引作为主要代价,提出了基于实体的多连接顺序优化策略。进一步,通过实验证明了估计连接结果大小的算法在大规模数据上有着显著的优势。展开更多
针对数据库查询优化中多表连接优化问题,任务是找到一个合适的连接顺序使查询执行计划最优,为此提出一种查询语句的嵌入表示方法SmartEncoder。通过优化查询语句中多表连接的嵌入表示信息,得到更丰富的关于连接的信息,将多表连接顺序选...针对数据库查询优化中多表连接优化问题,任务是找到一个合适的连接顺序使查询执行计划最优,为此提出一种查询语句的嵌入表示方法SmartEncoder。通过优化查询语句中多表连接的嵌入表示信息,得到更丰富的关于连接的信息,将多表连接顺序选择优化建模为深度强化学习问题,根据动作的概率分布选择连接,从过去的经验中学习,生成更好的查询执行计划。在Join Order Benchmark数据集上的实验结果表明,SmartEncoder能够有效提高查询的效率。展开更多
文摘按照元组描述的实体对其进行组织和查询处理是一种管理劣质数据的有效方法。考虑到同一个实体的同一属性存在多个描述值,因此基于实体的数据库上的连接是支持多个值的相似性连接。由于多表连接操作的连接顺序对连接性能有着重要的影响,研究了实体数据库上多表连接顺序选择方法,采用基于实体的马尔可夫链蒙特卡洛(Markov chain Monte Carol,MCMC)方法估计出实体数据库的相似性连接操作的结果大小,并以连接结果大小和有无索引作为主要代价,提出了基于实体的多连接顺序优化策略。进一步,通过实验证明了估计连接结果大小的算法在大规模数据上有着显著的优势。
文摘针对数据库查询优化中多表连接优化问题,任务是找到一个合适的连接顺序使查询执行计划最优,为此提出一种查询语句的嵌入表示方法SmartEncoder。通过优化查询语句中多表连接的嵌入表示信息,得到更丰富的关于连接的信息,将多表连接顺序选择优化建模为深度强化学习问题,根据动作的概率分布选择连接,从过去的经验中学习,生成更好的查询执行计划。在Join Order Benchmark数据集上的实验结果表明,SmartEncoder能够有效提高查询的效率。