Optimize suggestion #231

HaydenOrz · 2023-12-12T09:04:59Z

主要变更

优化自动补全时，寻找最小的合适范围的策略
在自动补全的单测中应用 commentOtherLine 方法，（只包括在单行中补全的单测）
添加在多行sql情况下自动补全的测试用例

关于优化自动补全

为什么要寻找最小的合适范围？

在sql文本量很大的时候，antlr4-c3 会表现出严重的性能问题，此前的测试中发现sql 内容 5000 行时，antlr4-c3 需要大概30秒才能收集完成，这太慢了。所以需要找到一个最小的合适的范围，在这个范围内做自动补全以保证性能稳定。

如何寻找最小的合适范围？

将sql内容按语句切分，如果sql语句中包含一条以上的sql语句，则在所有的 sql 语句中寻找一个合适的范围
这个范围的边界是两条语句对应的上下文，分别是左边界和右边界
左边界的界定条件是：当前语句的结束位置在补全位置之前，当前语句是一个不包含解析异常的语句，且当前语句的上一句也是一个不包含解析异常的语句。
右边界的界定条件是：当前语句的起始位置在补全位置之后，当前语句是一个不包含解析异常的语句，且当前语句的上一句也是一个不包含解析异常的语句

对于左边界，为什么需要它的上一句也是一个不包含解析异常的语句（右边界同理）

因为可能会出现一条独立语句可以由多条独立语句组成的情况，比如

INSERT INTO tb SELECT * FROM tb;

在寻找这个最小范围时，相当重要的一个基本准则是：需要保证按这个范围切割后的文本片段交给c3 去收集的结果，与完整文本交给c3去收集的结果相同。

基于这个基本准则，在寻找这个范围时需要特别小心，左边界向前看一句和右边界向后看一句，都能尽量减少误差。

值得强调的是，即使这样做了也不能完全保证遵守了上述基本准则，因为不同的sql的语法存在差异，另外在某些情况下，如果文本中包含了语法错误，Antlr4 在错误位置将会以一种怪异的方式生成语法树。

在理论上也无法绝对保证遵守上述基本准则，是因为这实际上是在用普通的js逻辑去试图理解哪些解析树节点属于同一个语句。在自动补全方法内部的对应策略只能尽量取得平衡（性能和准确性之前的平衡），好消息是目前看起来一切运行良好。

关于多行sql自动补全的单元测试

多行情况下，自动补全的情况分为三种：

要自动自动补全的位置所处于的语句位于sql内容的起始位置
要自动自动补全的位置所处于的语句位于sql内容的中间位置
要自动自动补全的位置所处于的语句位于sql内容的末尾

HaydenOrz · 2023-12-12T09:16:59Z

关联PR #228 , 此PR修复了 #228 中的遗留问题

mumiao · 2023-12-12T11:46:25Z

明天上午Review掉

liuxy0551 · 2023-12-13T03:27:24Z

解读一遍后 basicParser 那里我没什么问题了

HaydenOrz added 4 commits December 12, 2023 16:28

feat: optimize the strategy of finding the right range

9827665

test: apply commentOtherLine util to all suggestion tests

779c9a7

test: decomment suggestion test cases

268fe32

test: add suggestion test cases in multiple statements

a540628

HaydenOrz added the improvement Improve existing feature label Dec 12, 2023

HaydenOrz requested review from Cythia828, mumiao, liuxy0551 and LuckyFBB December 12, 2023 09:04

mumiao self-assigned this Dec 13, 2023

HaydenOrz added 2 commits December 13, 2023 11:18

chore: improve comments

ce4788e

test: update log info in test

b681f68

HaydenOrz merged commit 3c7c59f into DTStack:main Dec 13, 2023

liuxy0551 mentioned this pull request Jul 25, 2024

feat: complete after error syntax #334

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Optimize suggestion #231

Optimize suggestion #231

Uh oh!

HaydenOrz commented Dec 12, 2023 •

edited

Loading

Uh oh!

HaydenOrz commented Dec 12, 2023

Uh oh!

mumiao commented Dec 12, 2023

Uh oh!

liuxy0551 commented Dec 13, 2023

Uh oh!

Uh oh!

Optimize suggestion #231

Optimize suggestion #231

Uh oh!

Conversation

HaydenOrz commented Dec 12, 2023 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

主要变更

关于优化自动补全

为什么要寻找最小的合适范围？

如何寻找最小的合适范围？

对于左边界，为什么需要它的上一句也是一个不包含解析异常的语句（右边界同理）

关于多行sql自动补全的单元测试

Uh oh!

HaydenOrz commented Dec 12, 2023

Uh oh!

mumiao commented Dec 12, 2023

Uh oh!

liuxy0551 commented Dec 13, 2023

Uh oh!

Uh oh!

HaydenOrz commented Dec 12, 2023 •

edited

Loading