Quy trình tự động hóa chuyển đổi văn bản thành âm thanh (Text to Speech) với n8n và Elevenlabs

1. Khó khăn gặp phải trước khi áp dụng

Trước khi áp dụng quy trình tự động hóa qua công cụ n8n, việc tạo âm thanh từ văn bản Text to Speech cần nhiều thời gian và công sức, đặc biệt là việc thực hiện thủ công từng bước như nhập liệu, vận dụng API và lưu trữ file. Các công việc này yêu cầu hiểu biết về API của Elevenlabs, cũng như quy trình làm việc với Google Sheets và Google Drive, khiến cho quá trình phức tạp hơn.

2. Workflow này đã giải quyết được bài toán

Workflow này đã giúp tự động hóa hoàn toàn quy trình chuyển đổi văn bản thành âm thanh Text to Speech bằng Elevenlabs, từ việc lấy dữ liệu từ Google Sheets cho đến tạo file âm thanh và lưu trữ trên Google Drive. Bằng cách này, thời gian và công sức làm việc của người dùng đã được giảm thiểu đáng kể.

3. Các nền tảng, ứng dụng sử dụng trong workflow

n8n (công cụ tự động hóa)
Google Sheets (lưu trữ và quản lý dữ liệu)
Google Drive (lưu trữ file âm thanh)
Elevenlabs (API Text-to-Speech)

4. Các bước thực hiện xử lý qua từng node trong workflow

Manual Trigger: Bắt đầu workflow khi người dùng nhấn nút ‘Test workflow’.
Sticky Note: Cung cấp thông tin hướng dẫn về cấu hình và API.
Setup first: Cài đặt các tham số như voice_id và elevenlabs_api_key.
Get row(s) in sheet: Lấy dữ liệu từ Google Sheets.
Loop Over Items: Duyệt qua từng mục trong dữ liệu.
Text to Speech: Gửi yêu cầu chuyển đổi văn bản thành âm thanh qua API Elevenlabs.
Get Duration: Tính toán độ dài file âm thanh vừa tạo.
Upload file: Tải file âm thanh lên Google Drive.
Update row in sheet: Cập nhật liên kết âm thanh và thông tin trình phát vào Google Sheets.

5. Cách cài đặt workflow

Để cài đặt workflow, người dùng cần đăng nhập vào n8n, tạo credentail cho Elevenlabs và Google Sheets, sau đó nhập các node đã mô tả trong quy trình Text to Speech, điền thông tin cần thiết và liên kết chúng lại với nhau theo hướng dẫn trên.

6. Giải thích các tham số cài đặt trong Elevenlabs node

Các tham số trong voice_settings của ElevenLabs Text-to-Speech dùng để điều chỉnh cách giọng nói được tạo ra. Mỗi giá trị ảnh hưởng trực tiếp tới độ tự nhiên, độ giống giọng gốc và phong cách đọc.

`- Tham số stability`

Giá trị: 0 → 1

Ý nghĩa:
Điều khiển độ ổn định của giọng đọc (giữ giọng giống nhau giữa các câu).

0 – 0.3 → Giọng tự nhiên, cảm xúc hơn, nhưng có thể thay đổi tone giữa các câu.
0.4 – 0.7 → Cân bằng giữa tự nhiên và ổn định.
0.8 – 1 → Giọng rất ổn định, nhưng dễ nghe robotic hơn.

Ví dụ:
0.3 → giọng khá tự nhiên và linh hoạt, phù hợp video kể chuyện.

`- similarity_boost`

Giá trị: 0 → 1

Ý nghĩa:
Mức độ giống với voice mẫu gốc (voice clone hoặc voice preset).

0.3 – 0.5 → ít giống, AI có thể biến tấu nhiều.
0.6 – 0.8 → khá giống voice gốc.
0.9 – 1 → rất giống voice gốc, nhưng đôi khi ít tự nhiên.

Ví dụ:
0.75 → giọng khá giống voice gốc nhưng vẫn tự nhiên.

`- style`

Giá trị: 0 → 1 (hoặc cao hơn tùy model)

Ý nghĩa:
Điều chỉnh mức độ diễn cảm / dramatic style của giọng.

0 → đọc bình thường.
0.3 – 0.6 → có biểu cảm hơn.
0.7+ → rất dramatic.

⚠️ Không phải voice nào cũng hỗ trợ tham số này.

Ví dụ:
0 → giọng trung tính, ít diễn cảm.

– `use_speaker_boost`

Giá trị: true / false

Ý nghĩa:
Bật Speaker Boost để tăng chất lượng và độ rõ của giọng.

true → giọng rõ hơn, giống voice gốc hơn.
false → xử lý nhanh hơn nhưng có thể giảm chất lượng.

Ví dụ:
true → ưu tiên chất lượng giọng.

–`speed`

Giá trị:
Thường 0.7 → 1.2

Ý nghĩa:
Tốc độ đọc.

0.7 → chậm.
0.9 → hơi chậm.
1 → tốc độ bình thường.
1.1 – 1.2 → nhanh.

Ví dụ:
1 → tốc độ chuẩn.

Một số Preset mình thường dùng khi làm video AI:

Tự nhiên nhất

{

“stability”: 0.25,

“similarity_boost”: 0.7,

“style”: 0.2,

“use_speaker_boost”: true,

“speed”: 1

}

Đọc tin tức

{

“stability”: 0.6,

“similarity_boost”: 0.85,

“style”: 0,

“use_speaker_boost”: true,

“speed”: 1

}

Kể chuyện / storytelling

{

“stability”: 0.3,

“similarity_boost”: 0.7,

“style”: 0.4,

“use_speaker_boost”: true,

“speed”: 0.95

}

Kết

Quy trình này đã giúp tự động hóa việc tạo âm thanh từ văn bản một cách nhanh chóng và hiệu quả, giảm bớt khối lượng công việc cho người dùng, đồng thời đảm bảo tính chính xác và nhất quán trong từng bước thực hiện.

Hình ảnh workflow sau khi cài đặt lên N8N

Link tải workflow tại đây

1. Khó khăn gặp phải trước khi áp dụng

2. Workflow này đã giải quyết được bài toán

3. Các nền tảng, ứng dụng sử dụng trong workflow

4. Các bước thực hiện xử lý qua từng node trong workflow

5. Cách cài đặt workflow

6. Giải thích các tham số cài đặt trong Elevenlabs node

`- Tham số stability`

`- similarity_boost`

`- style`

– `use_speaker_boost`

–`speed`

Một số Preset mình thường dùng khi làm video AI:

Kết

Hình ảnh workflow sau khi cài đặt lên N8N

Bình luận

Để lại một bình luận Hủy

1. Khó khăn gặp phải trước khi áp dụng

2. Workflow này đã giải quyết được bài toán

3. Các nền tảng, ứng dụng sử dụng trong workflow

4. Các bước thực hiện xử lý qua từng node trong workflow

5. Cách cài đặt workflow

6. Giải thích các tham số cài đặt trong Elevenlabs node

- Tham số stability

- similarity_boost

- style

– use_speaker_boost

–speed

Một số Preset mình thường dùng khi làm video AI:

Kết

Hình ảnh workflow sau khi cài đặt lên N8N

Bình luận

Để lại một bình luận Hủy

`- Tham số stability`

`- similarity_boost`

`- style`

– `use_speaker_boost`

–`speed`