Конспект урока по информатике " визуализация информации в текстовых документах". Кластеризация и визуализация текстовой информации Визуализация информации в текстовых документах практическая работа

29.06.2020

ФИО учителя: Трифонова Надежда Вячеславовна

Образовательное учреждение: ГБОУ СОШ пос. Сургут

Предмет: информатика

Класс: 7(1 группа)

Тема урока: «Визуализация информации в текстовых документах»

Цель урока: з накомство с основными способами визуализации информации и формирование осознанного понимания в необходимости использования данного инструмента в жизни.

Планируемые образовательные результаты:

предметные:

метапредметные:

личностные:

регулятивные:

познавательные:

коммуникативные:

Программное содержание: Текстовые документы. Обработка графической информации. Информация и информационные процессы.

Основные понятия и другие компоненты научных знаний по предмету:

визуализация информации и ее виды: диаграммы, иллюстрации, списки, таблицы;

виды списков;

представление о возможностях и инструментах в стандартной программе Paint;

представление об основных функциях и инструментах офисного пакета MS Office Publisher;

знания основных сочетаний «горячих клавиш» для выделения всего объекта или текста, его копирования или вырезания.

План изучения нового материала:

подведение к новой теме;

формулирование цели урока;

разбор основных понятий с опорой на уже имеющиеся знания по биологии, обществознанию и информатике;

создание мини-проекта в парах;

представления своих продуктов-буклетов;

SWOT-анализ продуктов(буклетов);

определение уровня достижения цели.

Тип урока: комбинированный, урок-проект.

Форма урока: защита проектов, фронтальная и парная работа.

Технология обучения:

метод проектов;

поисковый метод;

«принеси с собой свое устройство» (только элементы — при поиске информации используют смартфоны и планшеты, подключенные к школьному Интернету);

интерактивные технологии;

технологии менеджмента (элементы) — SWOT-анализ идеи или проблемы.

Оборудование (или оснащение) урока:
Приложение 1
PPTX / 2.83 Мб
Приложение 2 - буклет-образец
PUB / 644 Кб
проектор с экраном, ноутбук учителя, ноутбуки учеников (один на пару), презентация «Визуализация информации в текстовых документах» (Приложение 1), тетради и ручки, буклеты (Приложение 2), ПО: MS Publisher 2010, Paint.

Мизансцена урока: традиционная, учащиеся сидят по парам за партами — у каждой пары один ноутбук.

Подготовка к уроку (если есть необходимость):

для учителя:

для класса в зависимости от уровня сформированности ИКТ компетенций и личного опыта(не потребовалось — сильная группа):

заранее подобрать картинки под эмблему и выложить на рабочий стол в каждый ноутбук;

проверить наличие Интернета;

проверить наличие Paint, офисного пакета Microsoft Office версии не ранее 2007;

распечатать конспект и буклеты.

заранее произвести знакомство с программой по созданию буклетов;

попросить дома сформулировать идеи бизнес-проекта.

Технологическая карта хода урока

В русскоязычном секторе интернета очень мало учебных практических примеров (а с примером кода ещё меньше) анализа текстовых сообщений на русском языке. Поэтому я решил собрать данные воедино и рассмотреть пример кластеризации, так как не требуется подготовка данных для обучения.

Большинство используемых библиотек уже есть в дистрибутиве Anaconda 3 , поэтому советую использовать его. Недостающие модули/библиотеки можно установить стандартно через pip install «название пакета».
Подключаем следующие библиотеки:

Import numpy as np import pandas as pd import nltk import re import os import codecs from sklearn import feature_extraction import mpld3 import matplotlib.pyplot as plt import matplotlib as mpl
Для анализа можно взять любые данные. Мне на глаза тогда попала данная задача: Статистика поисковых запросов проекта Госзатраты . Им нужно было разбить данные на три группы: частные, государственные и коммерческие организации. Придумывать экстраординарное ничего не хотелось, поэтому решил проверить, как поведет кластеризация в данном случае (забегая наперед - не очень). Но можно выкачать данные из VK какого-нибудь паблика:

Import vk #передаешь id сессии session = vk.Session(access_token="") # URL для получения access_token, вместо tvoi_id вставляете id созданного приложения Вк: # https://oauth.vk.com/authorize?client_id=tvoi_id&scope=friends,pages,groups,offline&redirect_uri=https://oauth.vk.com/blank.html&display=page&v=5.21&response_type=token api = vk.API(session) poss= id_pab=-59229916 #id пабликов начинаются с минуса, id стены пользователя без минуса info=api.wall.get(owner_id=id_pab, offset=0, count=1) kolvo = (info//100)+1 shag=100 sdvig=0 h=0 import time while h70): print(h) #не обязательное условие, просто для контроля примерного окончания процесса pubpost=api.wall.get(owner_id=id_pab, offset=sdvig, count=100) i=1 while i < len(pubpost): b=pubpost[i]["text"] poss.append(b) i=i+1 h=h+1 sdvig=sdvig+shag time.sleep(1) len(poss) import io with io.open("public.txt", "w", encoding="utf-8", errors="ignore") as file: for line in poss: file.write("%s\n" % line) file.close() titles = open("public.txt", encoding="utf-8", errors="ignore").read().split("\n") print(str(len(titles)) + " постов считано") import re posti= #удалим все знаки препинания и цифры for line in titles: chis = re.sub(r"(\<(/?[^>]+)>)", " ", line) #chis = re.sub() chis = re.sub("[^а-яА-Я ]", "", chis) posti.append(chis)
Я буду использовать данные поисковых запросов чтобы показать, как плохо кластеризуются короткие текстовые данные. Я заранее очистил от спецсимволов и знаков препинания текст плюс провел замену сокращений (например, ИП – индивидуальный предприниматель). Получился текст, где в каждой строке находился один поисковый запрос.

Считываем данные в массив и приступаем к нормализации – приведению слова к начальной форме. Это можно сделать несколькими способами, используя стеммер Портера, стеммер MyStem и PyMorphy2. Хочу предупредить – MyStem работает через wrapper, поэтому скорость выполнения операций очень медленная. Остановимся на стеммере Портера, хотя никто не мешает использовать другие и комбинировать их с друг другом (например, пройтись PyMorphy2, а после стеммером Портера).

Titles = open("material4.csv", "r", encoding="utf-8", errors="ignore").read().split("\n") print(str(len(titles)) + " запросов считано") from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") def token_and_stem(text): tokens = filtered_tokens = for token in tokens: if re.search("[а-яА-Я]", token): filtered_tokens.append(token) stems = return stems def token_only(text): tokens = filtered_tokens = for token in tokens: if re.search("[а-яА-Я]", token): filtered_tokens.append(token) return filtered_tokens #Создаем словари (массивы) из полученных основ totalvocab_stem = totalvocab_token = for i in titles: allwords_stemmed = token_and_stem(i) #print(allwords_stemmed) totalvocab_stem.extend(allwords_stemmed) allwords_tokenized = token_only(i) totalvocab_token.extend(allwords_tokenized)

Pymorphy2

import pymorphy2 morph = pymorphy2.MorphAnalyzer() G= for i in titles: h=i.split(" ") #print(h) s="" for k in h: #print(k) p = morph.parse(k).normal_form #print(p) s+=" " s += p #print(s) #G.append(p) #print(s) G.append(s) pymof = open("pymof_pod.txt", "w", encoding="utf-8", errors="ignore") pymofcsv = open("pymofcsv_pod.csv", "w", encoding="utf-8", errors="ignore") for item in G: pymof.write("%s\n" % item) pymofcsv.write("%s\n" % item) pymof.close() pymofcsv.close()

pymystem3

Исполняемые файлы анализатора для текущей операционной системы будут автоматически загружены и установлены при первом использовании библиотеки.

From pymystem3 import Mystem m = Mystem() A = for i in titles: #print(i) lemmas = m.lemmatize(i) A.append(lemmas) #Этот массив можно сохранить в файл либо "забэкапить" import pickle with open("mystem.pkl", "wb") as handle: pickle.dump(A, handle)

Создадим матрицу весов TF-IDF. Будем считать каждый поисковой запрос за документ (так делают при анализе постов в Twitter, где каждый твит – это документ). tfidf_vectorizer мы возьмем из пакета sklearn, а стоп-слова мы возьмем из корпуса ntlk (изначально придется скачать через nltk.download()). Параметры можно подстроить как вы считаете нужным – от верхней и нижней границы до количества n-gram (в данном случае возьмем 3).

Stopwords = nltk.corpus.stopwords.words("russian") #можно расширить список стоп-слов stopwords.extend(["что", "это", "так", "вот", "быть", "как", "в", "к", "на"]) from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer n_featur=200000 tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=10000, min_df=0.01, stop_words=stopwords, use_idf=True, tokenizer=token_and_stem, ngram_range=(1,3)) get_ipython().magic("time tfidf_matrix = tfidf_vectorizer.fit_transform(titles)") print(tfidf_matrix.shape)
Над полученной матрицей начинаем применять различные методы кластеризации:

Num_clusters = 5 # Метод к-средних - KMeans from sklearn.cluster import KMeans km = KMeans(n_clusters=num_clusters) get_ipython().magic("time km.fit(tfidf_matrix)") idx = km.fit(tfidf_matrix) clusters = km.labels_.tolist() print(clusters) print (km.labels_) # MiniBatchKMeans from sklearn.cluster import MiniBatchKMeans mbk = MiniBatchKMeans(init="random", n_clusters=num_clusters) #(init="k-means++", ‘random’ or an ndarray) mbk.fit_transform(tfidf_matrix) %time mbk.fit(tfidf_matrix) miniclusters = mbk.labels_.tolist() print (mbk.labels_) # DBSCAN from sklearn.cluster import DBSCAN get_ipython().magic("time db = DBSCAN(eps=0.3, min_samples=10).fit(tfidf_matrix)") labels = db.labels_ labels.shape print(labels) # Аггломеративная класстеризация from sklearn.cluster import AgglomerativeClustering agglo1 = AgglomerativeClustering(n_clusters=num_clusters, affinity="euclidean") #affinity можно выбрать любое или попробовать все по очереди: cosine, l1, l2, manhattan get_ipython().magic("time answer = agglo1.fit_predict(tfidf_matrix.toarray())") answer.shape
Полученные данные можно сгруппировать в dataframe и посчитать количество запросов, попавших в каждый кластер.

#k-means clusterkm = km.labels_.tolist() #minikmeans clustermbk = mbk.labels_.tolist() #dbscan clusters3 = labels #agglo #clusters4 = answer.tolist() frame = pd.DataFrame(titles, index = ) #k-means out = { "title": titles, "cluster": clusterkm } frame1 = pd.DataFrame(out, index = , columns = ["title", "cluster"]) #mini out = { "title": titles, "cluster": clustermbk } frame_minik = pd.DataFrame(out, index = , columns = ["title", "cluster"]) frame1["cluster"].value_counts() frame_minik["cluster"].value_counts()
Из-за большого количества запросов не совсем удобно смотреть таблицы и хотелось бы больше интерактивности для понимания. Поэтому сделаем графики взаимного расположения запросов относительного друг друга.

Сначала необходимо вычислить расстояние между векторами. Для этого будет применяться косинусовое расстояние. В статьях предлагают использовать вычитание из единицы, чтобы не было отрицательных значений и находилось в пределах от 0 до 1, поэтому сделаем так же:

From sklearn.metrics.pairwise import cosine_similarity dist = 1 - cosine_similarity(tfidf_matrix) dist.shape
Так как графики будут двух-, трехмерные, а исходная матрица расстояний n-мерная, то придется применять алгоритмы снижения размерности. На выбор есть много алгоритмов (MDS, PCA, t-SNE), но остановим выбор на Incremental PCA. Этот выбор сделан в следствии практического применения – я пробовал MDS и PCA, но оперативной памяти мне не хватало (8 гигабайт) и когда начинал использоваться файл подкачки, то можно было сразу уводить компьютер на перезагрузку.

Алгоритм Incremental PCA используется в качестве замены метода главных компонентов (PCA), когда набор данных, подлежащий разложению, слишком велик, чтобы разместиться в оперативной памяти. IPCA создает низкоуровневое приближение для входных данных, используя объем памяти, который не зависит от количества входных выборок данных.

# Метод главных компонент - PCA from sklearn.decomposition import IncrementalPCA icpa = IncrementalPCA(n_components=2, batch_size=16) get_ipython().magic("time icpa.fit(dist) #demo =") get_ipython().magic("time demo2 = icpa.transform(dist)") xs, ys = demo2[:, 0], demo2[:, 1] # PCA 3D from sklearn.decomposition import IncrementalPCA icpa = IncrementalPCA(n_components=3, batch_size=16) get_ipython().magic("time icpa.fit(dist) #demo =") get_ipython().magic("time ddd = icpa.transform(dist)") xs, ys, zs = ddd[:, 0], ddd[:, 1], ddd[:, 2] #Можно сразу примерно посмотреть, что получится в итоге #from mpl_toolkits.mplot3d import Axes3D #fig = plt.figure() #ax = fig.add_subplot(111, projection="3d") #ax.scatter(xs, ys, zs) #ax.set_xlabel("X") #ax.set_ylabel("Y") #ax.set_zlabel("Z") #plt.show()
Перейдем непосредственно к самой визуализации:

From matplotlib import rc #включаем русские символы на графике font = {"family" : "Verdana"}#, "weigth": "normal"} rc("font", **font) #можно сгенерировать цвета для кластеров import random def generate_colors(n): color_list = for c in range(0,n): r = lambda: random.randint(0,255) color_list.append("#%02X%02X%02X" % (r(),r(),r())) return color_list #устанавливаем цвета cluster_colors = {0: "#ff0000", 1: "#ff0066", 2: "#ff0099", 3: "#ff00cc", 4: "#ff00ff",} #даем имена кластерам, но из-за рандома пусть будут просто 01234 cluster_names = {0: "0", 1: "1", 2: "2", 3: "3", 4: "4",} #matplotlib inline #создаем data frame, который содержит координаты (из PCA) + номера кластеров и сами запросы df = pd.DataFrame(dict(x=xs, y=ys, label=clusterkm, title=titles)) #группируем по кластерам groups = df.groupby("label") fig, ax = plt.subplots(figsize=(72, 36)) #figsize подбирается под ваш вкус for name, group in groups: ax.plot(group.x, group.y, marker="o", linestyle="", ms=12, label=cluster_names, color=cluster_colors, mec="none") ax.set_aspect("auto") ax.tick_params(axis= "x", which="both", bottom="off", top="off", labelbottom="off") ax.tick_params(axis= "y", which="both", left="off", top="off", labelleft="off") ax.legend(numpoints=1) #показать легенду только 1 точки #добавляем метки/названия в х,у позиции с поисковым запросом #for i in range(len(df)): # ax.text(df.ix[i]["x"], df.ix[i]["y"], df.ix[i]["title"], size=6) #показать график plt.show() plt.close()
Если раскомментировать строку с добавлением названий, то выглядеть это будет примерно так:

Пример с 10 кластерами

Не совсем то, что хотелось бы ожидать. Воспользуемся mpld3 для перевода рисунка в интерактивный график.

# Plot fig, ax = plt.subplots(figsize=(25,27)) ax.margins(0.03) for name, group in groups_mbk: points = ax.plot(group.x, group.y, marker="o", linestyle="", ms=12, #ms=18 label=cluster_names, mec="none", color=cluster_colors) ax.set_aspect("auto") labels = tooltip = mpld3.plugins.PointHTMLTooltip(points, labels, voffset=10, hoffset=10, #css=css) mpld3.plugins.connect(fig, tooltip) # , TopToolbar() ax.axes.get_xaxis().set_ticks() ax.axes.get_yaxis().set_ticks() #ax.axes.get_xaxis().set_visible(False) #ax.axes.get_yaxis().set_visible(False) ax.set_title("Mini K-Means", size=20) #groups_mbk ax.legend(numpoints=1) mpld3.disable_notebook() #mpld3.display() mpld3.save_html(fig, "mbk.html") mpld3.show() #mpld3.save_json(fig, "vivod.json") #mpld3.fig_to_html(fig) fig, ax = plt.subplots(figsize=(51,25)) scatter = ax.scatter(np.random.normal(size=N), np.random.normal(size=N), c=np.random.random(size=N), s=1000 * np.random.random(size=N), alpha=0.3, cmap=plt.cm.jet) ax.grid(color="white", linestyle="solid") ax.set_title("Кластеры", size=20) fig, ax = plt.subplots(figsize=(51,25)) labels = ["point {0}".format(i + 1) for i in range(N)] tooltip = mpld3.plugins.PointLabelTooltip(scatter, labels=labels) mpld3.plugins.connect(fig, tooltip) mpld3.show()fig, ax = plt.subplots(figsize=(72,36)) for name, group in groups: points = ax.plot(group.x, group.y, marker="o", linestyle="", ms=18, label=cluster_names, mec="none", color=cluster_colors) ax.set_aspect("auto") labels = tooltip = mpld3.plugins.PointLabelTooltip(points, labels=labels) mpld3.plugins.connect(fig, tooltip) ax.set_title("K-means", size=20) mpld3.display()
Теперь при наведении на любую точку графика всплывает текст с соотвествующим поисковым запросом. Пример готового html файла можно посмотреть здесь: Mini K-Means

Если хочется в 3D и с изменяемым масштабом, то существует сервис Plotly , который имеет плагин для Python.

Plotly 3D

#для примера просто 3D график из полученных значений import plotly plotly.__version__ import plotly.plotly as py import plotly.graph_objs as go trace1 = go.Scatter3d(x=xs, y=ys, z=zs, mode="markers", marker=dict(size=12, line=dict(color="rgba(217, 217, 217, 0.14)", width=0.5), opacity=0.8)) data = layout = go.Layout(margin=dict(l=0, r=0, b=0, t=0)) fig = go.Figure(data=data, layout=layout) py.iplot(fig, filename="cluster-3d-plot")

Результаты можно увидеть здесь: Пример

И заключительным пунктом выполним иерархическую (аггломеративную) кластеризацию по методу Уорда для создания дендограммы.

In : from scipy.cluster.hierarchy import ward, dendrogram linkage_matrix = ward(dist) fig, ax = plt.subplots(figsize=(15, 20)) ax = dendrogram(linkage_matrix, orientation="right", labels=titles); plt.tick_params(\ axis= "x", which="both", bottom="off", top="off", labelbottom="off") plt.tight_layout() #сохраним рисунок plt.savefig("ward_clusters2.png", dpi=200)
Выводы

К сожалению, в области исследования естественного языка очень много нерешённых вопросов и не все данные легко и просто сгруппировать в конкретные группы. Но надеюсь, что данное руководство усилит интерес к данной теме и даст базис для дальнейших экспериментов.

САМОЕ ГЛАВНОЕ

Известно, что текстовая информация воспринимается человеком лучше, если она визуализирована - организована в виде списков, таблиц, диаграмм, снабжена иллюстрациями (фотографиями, рисунками, схемами).

Всевозможные перечни в документах оформляются с помощью списков. По способу оформления различают нумерованные и маркированные списки. Нумерованный список принято использовать в тех случаях, когда имеет значение порядок следования пунктов; маркированный - когда порядок следования пунктов в нём не важен. По структуре различают одноуровневые и многоуровневые списки.

Для описания ряда объектов, обладающих одинаковыми наборами свойств, наиболее часто используются таблицы, состоящие из столбцов и строк. Представленная в таблице информация наглядна, компактна и легкообозрима.

В современных текстовых процессорах предусмотрены возможности включения, обработки и создания графических объектов.

Вопросы и задания

1. С какой целью разработчики включают в текстовые документы списки, таблицы, графические изображения?

2. Для чего используются списки? Приведите примеры.

3. Сравните нумерованные и маркированные списки. Что у них общего? В чём различие?

4. Какой список называется многоуровневым? Приведите пример такого списка?

5. Какая информация может быть организована в табличной форме? Какие преимущества обеспечивает табличное представле ние информации?

6. Каких правил следует придерживаться при оформлении таблиц?

7. Какие графические объекты могут быть включены в текстовый документ?

8. Перечислите основные возможности текстовых процессоров по работе с графическими объектами.

Инструменты распознавания текстов

И компьютерного перевода

Ключевые слова;

Программы распознавания документов

Компьютерные словари

Программы-переводчики

Кроме текстовых процессоров, предназначенных для создания и обработки текстов на компьютере, существует ряд программ, позволяющих автоматизировать работу человека с текстовой информацией.

4.5.1. Программы оптического

Распознавания документов

Очень часто возникает необходимость ввести в компьютер несколь ко страниц текста из книги, статью из журнала или газеты и т. д. Конечно, можно затратить определённое время и просто набрать этот текст с помощью клавиатуры. Но чем больше исходный текст, тем больше времени будет затрачено на его ввод в память компьютера.

Судите сами. Предположим, кто-то из ваших одноклассников, освоивших клавиатурный тренажёр, может вводить текстовую ин формацию со скоростью 150 символов в минуту. Выясним, сколько времени ему понадобится для того, чтобы ввести в память компьюте ра текст романа А. Дюма «Три мушкетёра». Одно из изданий этого романа выполнено на 590 страницах; каждая страница содержит 48 строк, в каждую строку входит в среднем 53 символа.

Вычислим общее количество символов в романе: 590 48 53 1 500 960 (симв.).

Вычислим время, необходимое для ввода этого массива символов в память компьютера: 1500960: 150 10000 (мин.). А это приблизительно 167 часов.

При этом мы не обсуждаем вопрос о времени на исправление возможных ошибок при таком способе ввода текста, не принимаем в расчёт усталость человека.

Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов. Одной из наиболее известных программ такого типа является АВВУУ FineReader. Упрощённо работу с подобными программами можно представить так:

1. Бумажный носитель помещается под крышку сканера.

В программе отдаётся команда Сканировать и распознать. Сначала создаётся цифровая копия исходного документа в формате графического изображения. Затем программа анализирует структуру документа, выделяя на его страницах блоки текста, табли цы, картинки и т. п. Строки разбиваются на слова, а слова - на отдельные буквы. После этого программа сравнивает найденные символы с шаблонными изображениями букв и цифр. хранящи мися в её памяти. Программа рассматривает различные вариан ты разделения строк на слова и слов на символы. В программу встроены словари, обеспечивающие более точный анализ и распознавание, а также проверку распознанного текста. Проанализировав огромное число возможных вариантов, программа принимает окончательное решение и выдает пользователю распоанапный текст.

З. Распознанный текст переносится в окно текстового редактора (например, Microsoft Word).

Вместо сканера можно использовать цифровой фотоаппарат или камеру мобильного телефона. Например, при работе с книгами в библиотеке вы можете сфотографировать интересующие вас страницы. Скопировав снимки на компьютер, вы можете запустить АВВУУ FineReader, распознать тексты и продолжить работу с ними в текстовом процессоре (рис. 4.20).

Рис. 4.20. Оптическое распознавание документов

4.5.2. Компьютерные словари

И программы-переводчики

Возможности современных компьютеров по хранению больших массивов данных и осуществлению в них быстрого поиска положены в основу разработки компьютерных словарей и программ-переводчиков.

В обычном словаре, содержащем несколько сотен страниц, поиск нужного слова является длительным и трудоёмким процессом. Компьютерные словари обеспечивают мгновенный поиск словарных статей. Многие словари предоставляют пользователям возможность прослушивания слов в исполнении носителей языка.

Компьютерны е словари (русско-английские и англо-русские, русс ко-французские, русско-немецкие и др.) могут быть установлены на компьютер как самостоятельны е программы, бывают встроены в текстовые процессоры, существуют в оп-йпе-режиме в сети Интернет.

Www Сервис Яндекс-словари (http://slovari.yandex.ru/) обеспечивает перевод слов с семи иностранных языков на русский и обратно. Вы можете получить полную информацио о правильном произношении и написании иностранных слов, синонимах и примерах использования.

Компьютерные словари ВЫПоЛНЯЮт перевод отдельных слов и сло восочетаний. Для перевода текстовых документов применяются программы-переводчики. Они основаны на формальном знании языка - правил словообразования и правил построения предложений. Программа-переводчик сначала анализирует текст на исходном языке, а затем конструирует этот текст на том языке, на который его требуется перевести.

С помощью программ-переводчиков можно успешно переводить техническую документацию, деловую переписку и другие текстовые материалы, написанные «сухим» языком. Перевод художественных текстов, эмоционально окрашенных, богатых гиперболами, метафорами и др., в полной мере может выполнить только человек.

Сервис Переводчик текста (http://www.translate.ru/[)efault.aspxnext) предназначен для автоматизированного перевода небольших (не более 3000 символов) фрагментов текстовой информации с одного языка на другой. В нём поддерживаются английский, русский, немецкий, французский, испанский, португальский, итальянский и литовский языки; обеспечивается 26 направлений перевода (англо-русский и русско-английский; немецко-русский и русско-немецкий; французско-русский и русско-французский и т. д.).

Распознавание текстов и компьютерный перевод

САМОЕ ГЛАВНОЕ

Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов.

Возможности современных компьютеров по хранению больших массивов информации и осуществлению в них быстрого поиска положены в основу разработки компьютерных словарей и программ-переводчиков. Компьютерные словари выполняют перевод отдельных слов и словосочетаний. Для перевода текстовых документов применяются программы-переводчики.

Вопросы и задания

1. В каких случаях программы распознавания текста экономят время и силы человека?

2. Сколько времени потребуется для ввода в память компьютера текста романа Л. Дюма «Три мушкетёра» с помощью сканера и программы АВВУУ FineReader, если известно, что на сканирование одной страницы уходит З с, на смену страницы в сканере - 5 с, на распознавание страницы - 2 с?

З. Найдите в Интернете информацию о технологии сканирующего листания. В чём её суть?

4. Какие, по вашему мнению, основные преимущества компьютерных словарей перед обычными словарями в форме книг?

5. Почему программы-переводчики успешно переводят деловые документы, но не годятся для перевода текстов художествен ных произведений?

6. С помощью имеющейся в вашем распоряжении программы-переводчика переведите на знакомый вам иностранный язык фразу: «Кроме текстовых процессоров, предназначенных для создания и обработки текстов на компьютере, существует ряд программ, позволяющих автоматизировать работу человека с текстовой информацией». Полученный результат с помощью той же программы переведите на русский язык. Сравните текст исходной фразы и конечный результат. Дайте свои комментарии.

Оценка количественных параметров

Текстовых документов

Ключевые слова:

Кодовая таблица

Восьмиразрядный двоичный код

Информационный объём текста

| Планирование уроков и материалы к урокам | 7 классы | Планирование уроков на учебный год (ФГОС) | Визуализация информации в текстовых документах

Урок 25
Визуализация информации в текстовых документах

4.4.1. Списки

Ключевые слова:

нумерованные списки маркированные списки многоуровневые списки таблица графические изображения

Современные текстовые процессоры предоставляют пользователям широкие возможности визуализации информации в создаваемых документах.

Всевозможные перечни в документах оформляются с помощью списков. При этом все пункты перечня рассматриваются как абзацы, оформленные по единому образцу.

По способу оформления различают нумерованные и маркированные списки.

Элементы (пункты) нумерованного списка обозначаются с помощью последовательных чисел, для записи которых могут использоваться арабские и римские цифры . Элементы списка могут быть пронумерованы и буквами - русскими или латинскими (рис. 4.14).

Нумерованный список принято использовать в тех случаях, когда имеет значение порядок следования пунктов . Особенно часто такие списки используют для описания последовательности действий.

Нумерованные списки вы регулярно создаёте, заполняя в дневнике расписание уроков на каждый учебный день.

При создании новых, удалении или перемещении существующих элементов нумерованного списка в текстовом процессоре вся нумерация списка меняется автоматически.

Элементы маркированного списка обозначаются с помощью значков-маркеров. Пользователь может выбрать в качестве маркера любой символ компьютерного алфавита и даже небольшое графическое изображение (рис. 4.15). С помощью маркированного списка оформлены ключевые слова в начале каждого параграфа вашего учебника.

Маркированный список используют в тех случаях, когда порядок следования элементов в нём не важен. Например, в виде маркированного списка можно оформить перечень предметов, изучаемых вами в 7 классе.

По структуре различают одноуровневые и многоуровневые списки .

Списки в рассмотренных выше примерах имеют одноуровневую структуру.

Список, элемент которого сам является списком, называется многоуровневым. Так, оглавление вашего учебника информатики является многоуровневым (трёхуровневым) списком.

Списки создаются в текстовом процессоре с помощью команды строки меню или кнопок панели форматирования (рис. 4.16).

	ФИО	Шевяхова Марина Анатольевна
	Место работы	МОУ «Лицей №7»
	Должность	Учитель информатики
	Предмет	технология
	Класс	7Л класс
	Тема и номер урока в теме	Обработка текстовой информации 7 урок
	Базовый учебник	Информатика. Л.Л. Босова, А.Ю.Босова

8. Цель урока: познакомить с понятием визуализации информации в текстовых документах.

9. Результаты обучения:

Предметные – умения использования средств структурирования и визуализации текстовой информации;

Метапредметные – широкий спектр умений и навыков использования средств информационных и коммуникационных технологий для создания текстовых документов;

Навыки рационального использования имеющихся инструментов;

- формирование УУД (личностных, регулятивных, познавательных);

- развитие способности анализировать и обобщать, делать выводы; расширение кругозора.

Личностные – понимание социальной, общекультурной роли в жизни современного человека навыков создания текстовых документов;

Воспитание усидчивости, самостоятельности, интереса к предмету;

Развитие коммуникативных УУД.

10.Тип урока: урок ознакомления с новым материалом

11.Формы работы учащихся: фронтальная, работа в парах, самостоятельная работа

12. Необходимое оборудование: проектор, экран, компьютеры учеников

13. Основные понятия: информация, визуализация, списки маркированные и нумерованные, одноуровневые, многоуровневые, таблица, облако тегов.

14. Структура урока:

Организационный этап – 1 мин;
Актуализация знаний. Постановка учебных задач – 7 мин;
Совместное исследование проблемы (Открытие новых знаний) – 8 мин;
Моделирование (Работа в группах) – 5 мин;
Конструирование нового способа действия (Практическая работа)

Часть 1 – 5 мин
Часть 2 – 8 мин
Часть 3 – 7 мин;

Подведение итогов , рефлексия – 3 мин;
Информация о домашнем задании – 1 мин.

15. Ход урока

Этап	Задачи этапа	Деятельность учителя	Деятельность учащегося	Универсальные учебные действия
Организационный этап	Психологически подготовить уч-ся к работе на учебном занятии .	Приветствую ребят. Обеспечиваю нормальную внешнюю обстановку для работы на учебном занятии;	Готовятся к работе на уроке	Регулятивные УУД: Умение готовить рабочее место для выполнения разных видов работ
Актуализация знаний Постановка учебных задач	Создать проблемную ситуацию для определения границу знаний учащихся и постановки новой учебной задачи	Организую погружение в проблему, создает ситуацию для определения школьниками границы собственного знания	Слушают учителя, вступают в диалог с учителем, высказывают предположения Определяют учебные задачи, которые необходимо будет решить на уроке	Коммуникативные: умение формулировать собственное мнение, умение организовывать и планировать учебное сотрудничество с учителем Познавательные: умение давать определение понятиям; Регулятивные : умение преобразовывать практическую задачу в познавательную
Совместное исследование проблемы	Организовать поиск решения учебной задачи.	Просмотр видеоролика Фиксирую выдвинутые учениками гипотезы, организует их обсуждение.	Анализируют увиденное, вносят предложения	Коммуникативные : - устанавливать рабочие отношения, эффективно сотрудничать Регулятивные : умение исследовать условия учебной задачи, определять порядок действий при решении проблемы; осознанно строить речевые высказывания, обсуждать способы решения учебной задачи; анализировать, доказывать, аргументировать свою точку зрения
Моделирование	Зафиксировать в модели существенные отношения изучаемого объекта Презентация 1	Обращаю внимание школьников на те способы действия с учебным материалом, которые помогли найти нужную информацию и систематизировать ее. Предлагаю на основе полученной информации дать научное определение понятия «Визуализация информации» Введение понятий: списки маркированные, нумерованные. В каких случаях будем пользоваться нумерованным списком? А маркированным? По структуре различают одноуровневые и многоуровневые списки. Рассмотрим оглавление нашего учебника и художественной книги… Работа в парах: Решить задачу Что будем использовать для визуализации информации? (Приложение 1)	Сравнивают, определяют общие признаки, систематизируют полученную информацию и фиксируют ее Высказывают предположения об использованных ими способах действия с учебным материалом Дают научное определение визуализации информации Делают выводы, отвечают Рассматривают, дают определение Таблицу. Решают задачу	Познавательные УУД: умение на основе анализа объектов и текстового материала делать выводы; Коммуникативные УУД: Умение строить речевое высказывание в соответствии с поставленными задачами; Регулятивные УУД: Умение высказывать своё предположение на основе работы с материалом; Познавательные УУД: умение находить ответы на вопросы, используя разные источники информации; Коммуникативные УУД: Умение оформлять свои мысли в устной форме
Конструирование нового способа действия	Создать условия для использования новых способов действия с учебным материалом в практической работе	Объяснение практической работы Часть 1 – совместно (Приложение 2) Часть 2 – самостоятельно, с проверкой (Приложение 3) Введение понятие «Облако тегов» Часть 3 – по алгоритму создать свое облако ключевых слов по теме урока (Приложение 4)	Выполняют практическую работу, применяя полученные знания. Участвуют в коллективном обсуждении результатов своей работы Рассуждают, дают определение «Облако тегов»	Регулятивные УУД: умение высказывать своё предположение на основе работы с материалом; организовывать свою деятельность для проведения наблюдений; Личностные УУД: развитие интереса к учебно-исследовательской деятельности; Познавательные УУД: умение находить ответы на вопросы, используя разные источники информации
Подведение итогов. Рефлексия	Установить соответствия между поставленными задачами урока и результатом работы школьников, внести коррективы.	Организую рефлексию учебной деятельности учащихся	Проводят самоанализ учебной деятельности	Регулятивные УУД: умение осуществлять познавательную и личностную рефлексию;
Информация о домашнем задании		Предлагаю домашнее задание и комментирует его выполнение	Задают вопросы по домашнему заданию	Регулятивные УУД: умение задавать вопросы, необходимые для организации собственной деятельности

Приложение 1.

Задача 1.

Боря, Витя, Гриша и Егор встретились на Всероссийской олимпиаде по информатике. Ребята приехали из разных городов: Москвы, Омска, Саранска и Кирова. Известно, что Боря жил в одной комнате с мальчиком из Кирова и ни один из этих двух мальчиков никогда не был ни в Москве, ни в Саранске. Гриша играл в одной команде с мальчиком из Москвы, а вечерами к ним заходил приятель из Кирова. Егор и мальчик из Москвы увлекались игрой в шахматы. Кто из ребят откуда приехал?

Решение

	Москва	Омск	Саранск	Киров
Боря
Витя
Гриша
Егор

Приложение 2.

Часть I

Открыть файл Часть I в папке 7 класс. Определить название списка. Сделать информацию визуальной

Процессор

Память

Оперативная память

Долговременная память

Жесткий магнитный диск

Дискета

Флэш-память

Оптические диски

Устройства ввода

Клавиатура

Мышь

Сканер

Графический планшет

Цифровая камера

Микрофон

Джойстик

Устройства вывода

Монитор

Жидкокристаллический монитор

Монитор на электронно-лучевой трубке

Принтер

Матричный принтер

Струйный принтер

Лазерный принтер

Приложение 3.

Часть II

Создайте текстовый документ, используя маркированные и нумерованные списки.

Способы выравнивания строк абзаца

Влево
По центру
Вправо
По ширине

Информация в таблице

Наглядна
Компактна
Легко обозрима

Заголовок

Глава 1

Параграф 1
Параграф 2

Глава 2
Глава 3

Параграф 1
Параграф 2
Параграф 3

Глава 4

Приложение 4 .

Часть III

Создание Облако тегов

Алгоритм выполнения

10. Нажать Save (сохранить) в формате Image под именем «Мое облако» в личной папке (Сохраняется последняя форма)

Для справки

Any – произвольный, all – любой, Respins (крутиться, вертеть), Theme – тема

Font – шрифт, layout – расположение, макет

Accept –согласиться, zoom – масштаб, skip – пропуск, advanсed – улучшенный

Webpage – страница

shape

submit – представлять, представить

browse – обзор, просмотр

Урок 25Визуализация информации в текстовых документах

4.4.1. Списки

Ключевые слова:

Урок 25
Визуализация информации в текстовых документах