Esp32S3通过文心一言大模型实现智能语音对话

Esp32S3通过文心一言大模型实现智能语音对话

    正在检查是否收录...

前言

效果展示

效果展示录制

一、开发环境介绍

        1、arduino开发平台;

        2、所需设备:Esp32s3、inmp441、max98357、按键,杜邦线(接线);

        3、大模型:百度的文心一言大模型;

        4、语音识别(STT)和语音合成(TTS):使用百度语音识别和语音合成;

        5、使用语言:C/C++;

二、拓扑图

三、设备购买链接


        1、esp32s3:

        2、inmp441:

        3、max98357:

        4、按键:

        5、扬声器:

        6、杜邦线:

四、接线

1、INMP441与Esp32S3接线

        1.1、inmp44介绍

         INMP441是一款高性能,低功耗,数字输出,带底部端口的全向MEMS麦克风。该完整的INMP441解决方案由一个MEMS传感器,信号组成调节,模数转换器,抗混叠滤波器,电源管理和行业标准的24位I²S接口。I²S接口允许INMP441直接连接到数字处理器,如DSP和微控制器,无需使用用于系统中的音频编解码器。INMP441具有高信噪比,是一款出色的选择近场应用。 INMP441具有扁平宽带频率响应,导致自然声音高清晰度。

        1.2、inmp441接口定义

                SCK:I²S接口的串行数据时钟。
                WS:用于I²S接口的串行数据字选择。
                L/R:左/右声道选择。设置为低电平时,麦克风在I²S帧的左声道输出信号。设置为高电平时,麦克风在右声道输出信号。
                SD:I²S接口的串行数据输出。
                VDD:输入电源,1.8V至3.3V。
                GND:电源地。

        1.3、实物图

        1.4、接线

Esp32S3 INMP441 GPIO 4引脚 WS GPIO 5引脚 SCK        GPIO 6引脚 SD GND引脚 L/R和GND 3.3V引脚 VDD

2、MAX98357与Esp32S3接线

        1、max98357介绍

         这是一个采用标准的I2S作为数字音频输入,内置解码器,可将数字音频信号解码为模拟信号,并拥有内置放大器,可以直接驱动扬声器的D类放大器。因其工作效率高,可以以2.7V~5.5V的直流电压运行,因此非常适合便携式及电池供电的音频播放项目

        2、max98357接口定义

                VIN:电源正(2.5V-5.5V)。
                GND:电源地。
                SD:关机和频道选择。SD MODE拉低以将器件处于关断状态。
                GAIN:增益和频道选择。在TDM模式下,增益固定为12dB。
                DIN:数字信号输入。
                BCLK:位时钟输入。
                LRC:I2S与LJ模式的左/右时钟。同步时钟用于TDM模式。

        3、实物图

        1.4、接线

Esp32S3 INMP441 GPIO 16引脚 DIN GPIO 17引脚 BCLK    GPIO 18引脚 LRC GND引脚 GND 3.3V引脚 VIN

3、按键与Esp32S3接线

        1、按键介绍

        按键按下输出高电平,松开输出低电平,输出电平电压等于电源电压。

        2、接口定义

        -:电源负极。

        中间:电源正极。

        S:按键信号输出。

        3、实物图

        4、接线

Esp32S3 INMP441 GND -(左侧) 3.3v引脚 中间 GPIO 13引脚 S(右侧)

4、扬声器与MAX98357接线

这个接线比较简单,自己看着接就行。

5、源码-模块话开发

1、INMP441与MAX98357初始化接口

在my_inmp441_max98357.h文件中,实现初始化inmp441与max98357的接口。

#include <Arduino.h> #include <driver/i2s.h> #include <hal/i2s_types.h> #define INMP441_WS 4 #define INMP441_SCK 5 #define INMP441_SD 6 #define MAX98357_LRC 18 #define MAX98357_BCLK 17 #define MAX98357_DIN 16 #define SAMPLE_RATE 16000 i2s_config_t inmp441_i2s_config = { .mode = i2s_mode_t(I2S_MODE_MASTER | I2S_MODE_RX), .sample_rate = SAMPLE_RATE, .bits_per_sample = i2s_bits_per_sample_t(16), .channel_format = I2S_CHANNEL_FMT_ONLY_LEFT, .communication_format = i2s_comm_format_t(I2S_COMM_FORMAT_STAND_I2S), .intr_alloc_flags = ESP_INTR_FLAG_EDGE, .dma_buf_count = 8, // buffer 的数量 .dma_buf_len = 128 // buffer的大小,单位是i2s_bits_per_sample_t 采样位数,越小播放需要越及时时延越小,否则相反 }; const i2s_pin_config_t inmp441_gpio_config = { .bck_io_num = INMP441_SCK, .ws_io_num = INMP441_WS, .data_out_num = -1, .data_in_num = INMP441_SD }; i2s_config_t max98357_i2s_config = { .mode = i2s_mode_t(I2S_MODE_MASTER | I2S_MODE_TX), .sample_rate = SAMPLE_RATE, .bits_per_sample = i2s_bits_per_sample_t(16), .channel_format = I2S_CHANNEL_FMT_ONLY_LEFT, .communication_format = i2s_comm_format_t(I2S_COMM_FORMAT_STAND_MSB), .intr_alloc_flags = ESP_INTR_FLAG_LEVEL1, .dma_buf_count = 8, .dma_buf_len = 128 }; const i2s_pin_config_t max98357_gpio_config = { .bck_io_num = MAX98357_BCLK, .ws_io_num = MAX98357_LRC, .data_out_num = MAX98357_DIN, .data_in_num = -1 }; void inmp441_max98357_setup() { i2s_driver_install(I2S_NUM_0, &inmp441_i2s_config, 0, NULL); i2s_set_pin(I2S_NUM_0, &inmp441_gpio_config); i2s_driver_install(I2S_NUM_1, &max98357_i2s_config, 0, NULL); i2s_set_pin(I2S_NUM_1, &max98357_gpio_config); } void inmp441_max98357_loop() { uint16_t data[1024]; esp_err_t result; size_t bytes_read = 0; result = i2s_read(I2S_NUM_0, &data, sizeof(data), &bytes_read, portMAX_DELAY); //Serial.println(bytes_read); size_t bytes_write; result = i2s_write(I2S_NUM_1, &data, sizeof(data), &bytes_write, portMAX_DELAY); }

2、STT(语音转文字接口)

在my_stt.h文件中通过百度语音识别API接口实现语音转文字功能。

#include <Arduino.h> #include <driver/i2s.h> #include "base64.h" #include "HTTPClient.h" #include "cJSON.h" #include <ArduinoJson.h> // 1、修改百度语言技术的用户信息:https://console.bce.baidu.com/ai/?fromai=1#/ai/speech/app/list const int STT_DEV_PID = 1537; //选填,输入法模型 1737-英语 1537-普通话(近场识别模型) 1936-普通话远程识别 1837-四川话 const char *STT_CUID = "CoPY70iMA458XXX4PVLWmlLCruuYQd6G"; //用户唯一标识,用来区分用户,计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为60字符以内。 const char *STT_CLIENT_ID = "sOKyRkOGpcTYCNvGcd2F1i"; //API Key const char *STT_CLIENT_SECRET = "CoPY70iMAXXXo2r4PVLWmlLCruuYQd6G"; //Secret Key String stt_token; const int adc_data_len = 1024*16*2; const int data_json_len = adc_data_len * 2 * 1.4; uint16_t adc_data[adc_data_len]; char data_json[data_json_len]; String stt_gainToken() { HTTPClient stt_http; String token; String url = String("https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=") + STT_CLIENT_ID + "&client_secret=" + STT_CLIENT_SECRET; stt_http.begin(url); int httpCode = stt_http.GET(); if (httpCode > 0) { String payload = stt_http.getString(); DynamicJsonDocument doc(1024); deserializeJson(doc, payload); token = doc["access_token"].as<String>(); Serial.println("stt:" + token); } else { Serial.println("Error on HTTP request for token"); } stt_http.end(); return token; } void stt_assembleJson() { memset(data_json, '\0', data_json_len * sizeof(char)); strcat(data_json, "{"); strcat(data_json, "\"format\":\"pcm\","); strcat(data_json, "\"rate\":16000,"); strcat(data_json, "\"dev_pid\":1537,"); strcat(data_json, "\"channel\":1,"); strcat(data_json, "\"cuid\":\""); strcat(data_json, STT_CUID); strcat(data_json, "\","); strcat(data_json, "\"token\":\""); strcat(data_json, stt_token.c_str()); strcat(data_json, "\","); sprintf(data_json + strlen(data_json), "\"len\":%d,", adc_data_len * 2); strcat(data_json, "\"speech\":\""); strcat(data_json, base64::encode((uint8_t *)adc_data, adc_data_len * sizeof(uint16_t)).c_str()); //int tmp = base64::decode((char *)adc_data, adc_data_len, data_json); strcat(data_json, "\""); strcat(data_json, "}"); //Serial.println(data_json); } String getTextFromRespomse(String response) { // Parse JSON response DynamicJsonDocument jsonDoc(1024); deserializeJson(jsonDoc, response); String outputText = jsonDoc["result"]; int len = strlen(outputText.c_str()); String output = outputText.substring(2, len-2); Serial.println(output); return output; } String sendToSTT() { stt_assembleJson(); HTTPClient http_client_stt; http_client_stt.begin("http://vop.baidu.com/server_api");//短语音识别请求地址: 标准版http://vop.baidu.com/server_api, 极速版https://vop.baidu.com/pro_api http_client_stt.addHeader("Content-Type", "application/json"); int httpCode = http_client_stt.POST(data_json); if (httpCode > 0) { if (httpCode == HTTP_CODE_OK) { String response = http_client_stt.getString(); Serial.println(response); String outputText = getTextFromRespomse(response); http_client_stt.end(); return outputText; } } else { Serial.printf("[HTTP] POST failed, error: %s\n", http_client_stt.errorToString(httpCode).c_str()); http_client_stt.end(); return String("响应失败请重新获取!"); } } void stt_setup() { stt_token = stt_gainToken(); //Serial.println(stt_token.c_str()); }

3、通过API接口访问文心一言大模型

在my_ErnieBot.h文件中实现访问文心一言大模型API接口获取响应结果。

#include <HTTPClient.h> #include <ArduinoJson.h> // Replace with your OpenAI API key const char* ERNIE_BOT_CLIENT_ID = "vCe0kXozsI5LC8BJNJsQ9";//API Key const char* ERNIE_BOT_CLIENT_SECRET = "3iTfnHRaoP0Uiml00ACw6TPFsHbFt5";//Secret Key String ErnieBot_accessToken; String ErnieBotGainToken() { HTTPClient http; String token; String url = String("https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=") + ERNIE_BOT_CLIENT_ID + "&client_secret=" + ERNIE_BOT_CLIENT_SECRET; http.begin(url); int httpCode = http.GET(); if (httpCode > 0) { String payload = http.getString(); DynamicJsonDocument doc(1024); deserializeJson(doc, payload); token = doc["access_token"].as<String>(); Serial.println("ErnieBot:" + token); } else { Serial.println("Error on HTTP request for token"); } http.end(); return token; } String getErnieBotAnswer(String inputText) { //Serial.println(inputText.c_str()); HTTPClient http; http.setTimeout(1000000); String apiUrl = String("https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions?access_token=") + ErnieBot_accessToken.c_str(); http.begin(apiUrl); http.addHeader("Content-Type", "application/json"); String payload = "{\"messages\":[{\"role\": \"user\",\"content\": \"" + inputText + "两百字以内。" + "\"}],\"disable_search\": false,\"enable_citation\": false}"; Serial.println(payload.c_str()); int httpResponseCode = http.POST(payload); if (httpResponseCode == 200) { String response = http.getString(); http.end(); Serial.println(response); // Parse JSON response DynamicJsonDocument jsonDoc(1024); deserializeJson(jsonDoc, response); String outputText = jsonDoc["result"]; return outputText; } else { http.end(); Serial.printf("Error %i \n", httpResponseCode); return "<error>"; } } void ErnieBot_setup() { ErnieBot_accessToken = ErnieBotGainToken(); //Serial.println(ErnieBot_accessToken.c_str()); String answer = getErnieBotAnswer("你好,文心一言"); Serial.println("<Test Answer: " + answer); }

4、TTS(文字转语音接口)

在my_tts.h文件中通过百度语音识别API接口实现文字转语音功能。

#include <HTTPClient.h> #include <ArduinoJson.h> #include <base64.h> #include "cJSON.h" // 1、修改百度语言技术的用户信息:https://console.bce.baidu.com/ai/?fromai=1#/ai/speech/app/list const char *TTS_CUID = "CoPY70iMA458o2r4xxxmlLCruuYQd6G"; //用户唯一标识,用来区分用户,计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为60字符以内。 const char *TTS_CLIENT_ID = "sOKyRkOGpc74TYxxvGcd2F1i"; //API Key const char *TTS_CLIENT_SECRET = "CoPY70iMA45xx2r4PVLWmlLCruuYQd6G"; //Secret Key String tts_token; String tts_gainToken() { HTTPClient http; String token; String url = String("https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=") + TTS_CLIENT_ID + "&client_secret=" + TTS_CLIENT_SECRET; http.begin(url); int httpCode = http.GET(); if (httpCode > 0) { String payload = http.getString(); DynamicJsonDocument doc(1024); deserializeJson(doc, payload); token = doc["access_token"].as<String>(); Serial.println("tts:" + token); } else { Serial.println("Error on HTTP request for token"); } http.end(); return token; } // 百度语音合成的API URL const char* tts_url = "https://tsn.baidu.com/text2audio"; //https://tsn.baidu.com/text2audio String sendToTTS(String InputText, int *len) { InputText = urlEncode(InputText);//tex字段2次urlencode InputText = urlEncode(InputText);//百度为了更好地兼容,支持1次及2次urlencode, 其中2次urlencode可以覆盖全部的特殊字符。因而推荐传递tex 参数时做2次urlencode编码。 HTTPClient http; http.begin(tts_url); // 初始化HTTP请求 http.addHeader("Content-Type", "application/x-www-form-urlencoded"); // 根据API要求添加HTTP头 application/x-www-form-urlencoded String payload = String("tex=")+InputText.c_str()+String("&tok=")+tts_token.c_str()+String("&cuid=")+TTS_CUID+String("&ctp=1&lan=zh&spd=5&pit=5&vol=1&per=5&aue=4"); Serial.println(payload); String outputText; int httpCode = http.POST(payload); // 发送POST请求 if (httpCode == HTTP_CODE_OK) { String response = http.getString(); // 获取响应体 //Serial.println(response); *len = http.getSize(); Serial.println(*len); http.end(); // 结束HTTP请求 return response; } else { Serial.println("Error in the HTTP request"); outputText = String("Error in the HTTP request"); } http.end(); // 结束HTTP请求 return outputText; } void tts_setup() { tts_token = tts_gainToken(); //Serial.println(tts_token.c_str()); }

5、WiFi模块

在my_wifi.h文件中初始化wifi功能。

#include <WiFi.h> void wifi_setup() { WiFi.disconnect(true); // 3、填写您的wifi账号密码 WiFi.begin("name", "password"); while (WiFi.status() != WL_CONNECTED) { Serial.print("."); vTaskDelay(200); } Serial.println("\n-- wifi connect success! --"); }

6、效果展示

整体流程已经基本调通,效果展示在帖子最前面。

各模块源码无保留在第五章节,loop()函数各位老铁自己调用模块接口实现。

从无到有实现目前的效果,有参考其他大佬的帖子,也有自己摸索实现的部分,知识劳动成果,实属不易。

如果需要技术支持,欢迎骚扰(+v:Sw-striving)!

总结

jsontokenclicodedocttsurlapibottpubaidudefiapparduino语音识别api接口大模型百度语音oauth语音合成
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-20507.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

百度文心一言 App 获推 4.0.0 版本升级:更名文小言、9 月内文心 4.0 大模型免费用!

上一篇

在自己笔记本上使用 Llama-3 生成 PowerPoint — 幻灯片自动化的第一步

下一篇
  • 复制图片
按住ctrl可打开默认菜单