Skip to the content.

Teams app LukcyDraw 的升级之路

我已经有很长一段时间没有更新我的 Teams App:LuckyDraw 了,有很多用户反馈给我,因为快到圣诞,新年和春节了,很多公司都开始要使用LuckyDraw来搞抽奖活动,希望LuckyDraw能支持大用户量的抽奖,所以,我准备好好更新一波,让LuckyDraw支持 3000 用户的大群抽奖。

重新拾起 LuckyDraw 的第一步是先试一下之前的 CI/CD 是否还能工作,我编程的习惯是先配置 CI/CD,这个搞完后,再确保 tests 都一切顺利通过,然后再开始改代码,这样改代码的时候就放心,因为有大量的 tests 保驾护航,还有 CI/CD 自动到 dev,uat,prod 环境,可以很好的防止人为操作失误。

所以我先 check 了,infra 架构的 CI/CD,果然不出所料,一上来就失败了。

LuckyDrawApp

看了一下出错的说明,是因为我在 ARM Template 里使用的 alertrules 太老了,不再被支持了。

    {
      "apiVersion": "2014-04-01",
      "name": "[concat('ServerErrors ', variables('botApiName'))]",
      "type": "Microsoft.Insights/alertrules",
      "location": "[resourceGroup().location]",
      "dependsOn": [
        "[resourceId('Microsoft.Web/sites/', variables('botApiName'))]"
      ],
      "tags": {
        "[concat('hidden-link:', resourceGroup().id, '/providers/Microsoft.Web/sites/', variables('botApiName'))]": "Resource",
        "displayName": "ServerErrorsAlertRule"
      },
      "properties": {
        "name": "[concat('ServerErrors ', variables('botApiName'))]",
        "description": "[concat(variables('botApiName'), ' has some server errors, status code 5xx.')]",
        "isEnabled": false,
        "condition": {
          "odata.type": "Microsoft.Azure.Management.Insights.Models.ThresholdRuleCondition",
          "dataSource": {
            "odata.type": "Microsoft.Azure.Management.Insights.Models.RuleMetricDataSource",
            "resourceUri": "[concat(resourceGroup().id, '/providers/Microsoft.Web/sites/', variables('botApiName'))]",
            "metricName": "Http5xx"
          },
          "operator": "GreaterThan",
          "threshold": 0.0,
          "windowSize": "PT5M"
        },
        "action": {
          "odata.type": "Microsoft.Azure.Management.Insights.Models.RuleEmailAction",
          "sendToServiceOwners": true,
          "customEmails": []
        }
      }
    },

我使用的两个 alertrules 主要是监控 bot api service 有没有出现大量的 5xx 错误和 403 错误,因为之前有一次大量用户同时使用,大规模出现了 500 错误,我没有及时发现,所以耽误的发现的时间。所以加了这两个 alert rules,按照最新的文档,我需要参考这个来改写 ARM template.

https://learn.microsoft.com/en-us/azure/azure-monitor/alerts/alerts-create-new-alert-rule?tabs=metric

我目前采用了一个偷懒的做法,先把这两个 alert rules 删掉了,等以后再加上。

搞定了 infra 的 CI/CD 之后,我就开始搞主服务 luckydraw bot api 的 CI/CD,果然也失败了,报了一个很诡异的错误,如下:

LuckyDrawApp

初看下来,是 test coverage 的生成不工作了,我研究了很久,一直没有进展,不经意间我突然发现 AzureDevOps 自带的 build agent 已经使用了最新的 dotnet 7 来编译,我想会不会是 7 的问题,把下面 UseDotNet 这个 task 加到了 pipeline 的第一个 step,再次运行后就一切正常了。

steps:
- task: UseDotNet@2
  inputs:
    version: '6.x'
  
- script: |
    dotnet build --configuration $(buildConfiguration)

- script: |
    dotnet test test/LuckyDrawBot.Tests/LuckyDrawBot.Tests.csproj /p:CollectCoverage=true /p:CoverletOutputFormat=cobertura /p:Exclude=\"........\"
  displayName: dotnet test

我最后再 github 上找到了这个问题,很多人都提了这个问题:无法把参数传递给测试工具。

https://github.com/microsoft/vstest/issues/4014

https://github.com/microsoft/vstest/issues/4140

目前看这个问题已经被 fix 了,但 fix 还没有发布到官方版本,可能下一个 dotnet 7 的 release 里就可以包含这个修正。期待中。。。

搞定了 CI/CD 后,准备开始研究如何支持 3000 人的同时抽奖问题。

Written on December 15, 2022